AI와 하네스 엔지니어링 2026

CHAPTER 01

ChatGPT 이후 4년

⏱ 약 25분 · AI가 세상을 바꾼 방식

1.1 ChatGPT의 등장 2022년 11월 30일

역사상 가장 빠른 소비자 서비스 성장

1억 명 달성까지 걸린 시간 비교

ChatGPT

2개월

TikTok

9개월

Instagram

2.5년

Netflix

10년 (스트리밍)

10년

* 출처: UBS Research 2023.02 / 각 사 공식 발표 · 1억 MAU(월간 활성 사용자) 기준 · Netflix는 스트리밍 서비스 시작(2007) → 1억 명 달성(2017) 기준

BEFORE — 검색 엔진

👤 "파이썬 리스트 정렬 방법"

↓

🔗 stackoverflow.com/questions/...
🔗 wikidocs.net/32#정렬
🔗 blog.naver.com/python-sort
→ 직접 읽고 판단해야 함

AFTER — ChatGPT

👤 "파이썬 리스트 정렬 방법"

↓

🤖 sorted(리스트) 또는 .sort()를 사용합니다.
내림차순은 reverse=True를 추가하세요.
→ 즉시 사용 가능한 답 제공

💡 충격의 본질: 링크(정보의 위치)를 주던 시대 → 답(완성된 결과물)을 주는 시대로의 분기점

1.2 거인들의 진입 2023년

"어느 AI가 더 똑똑한가" — 모델 성능 경쟁 시대

2023.03.14

GPT-4

OpenAI

GPT-3.5 대비 추론·수학·코딩 전 영역 도약. 바 시험 상위 10%, 의사 자격시험 합격 수준. 이미지 입력 지원(멀티모달 첫 시도). "AI가 진짜 써먹을 수 있다"는 인식 확산.

추론 도약 이미지 입력

2023.03 / 07

Claude 1 · 2

Anthropic

Claude 1: API 한정 베타 출시(3월). Claude 2(7월): 컨텍스트 100K 토큰으로 대폭 확장 → 긴 문서 처리 강점 부각. "책 한 권을 통째로 넣고 질문" 가능해짐. Constitutional AI 기반 안전 설계 강조.

100K 토큰 안전 설계

2023.03.21 / 12.06

Bard → Gemini 1

Google

Bard(3월 21일): 서둘러 출시, 시연에서 오류 노출로 주가 9% 급락 사태. 연말 Gemini 1.0(12월 6일)으로 전면 리브랜딩. 검색 통합과 멀티모달 기반으로 방향 전환.

오류 사태 Gemini 전환

2023.11.06

OpenAI DevDay

OpenAI

GPT-4 Turbo(더 저렴·빠름), Custom GPTs(맞춤형 AI 빌더 발표), Assistants API(파일·코드 실행·함수 호출) 공개. GPT 스토어는 2024년 1월 실제 오픈. "모델 판매"에서 "플랫폼 생태계"로 전환 선언.

Custom GPTs Assistants API

💡 2023의 본질: 모델 성능 경쟁. 그러나 한계(환각, 최신 정보 부재)는 여전 — "텍스트만 주고받는 상담사" 단계

1.3 멀티모달·에이전트 시대 개막 2024년 상반기

AI가 텍스트 경계를 넘어 — 보고, 듣고, 행동하다

주요 모델 입출력 능력 매트릭스 (2024 상반기 기준)

모델	텍스트	이미지	음성	영상	컨텍스트	핵심 출시
Claude 3 Opus	✓	✓	–	–	200K	2024.03.04
GPT-4o	✓	✓	✓ 실시간	△	128K	2024.05.13
Gemini 1.5 Pro	✓	✓	✓	✓	1M	2024.02 프리뷰

2024.03.04 · Anthropic

Claude 3 패밀리

Opus·Sonnet 3월 4일 동시 출시, Haiku는 3월 13일 출시. 3티어 전략(빠름·균형·최고)으로 이미지 분석 첫 지원. GPT-4 수준 도달로 "Anthropic = 안전 전문"에서 "성능도 최정상"으로 인식 전환.

2024.05.13 · OpenAI

GPT-4o "오미니"

텍스트·음성·이미지를 단일 모델에서 실시간 처리. 음성 대화 평균 지연 320ms → "사람과 자연스럽게 대화"가 처음으로 현실화. 영상 통화 중 화면 분석까지 가능.

2024.02 · Google

Gemini 1.5 Pro

컨텍스트 100만 토큰 = 책 700쪽 분량을 통째로 이해. "Lost in the Middle" 문제에도 불구하고 장문 처리의 새 기준 제시. 음성·영상까지 입력 가능한 진정한 멀티모달.

💡 이 시기의 전환: AI가 말하는 존재에서 보고·듣고·판단하는 존재로 — 에이전트 시대의 전야

1.4 추론 모델의 등장 2024년 하반기 ~ 2025

빠른 AI vs 깊은 AI — 용도에 따라 선택하는 시대

2024.09.12 · OpenAI

o1 preview

답하기 전 내부 "Chain of Thought" 수행. PhD 수준 수학·물리 벤치마크 대폭 향상. 일반 사용자에게 처음으로 "생각하는 AI" 공개.

2024.12.20 · OpenAI

o3 (연구 프리뷰)

ARC-AGI 벤치마크 87.5% 달성 — 기존 AI 한계선으로 여겨지던 지표 돌파. "AI는 수조 원 게임"이라는 인식에 균열 시작.

2025.02.25 · Anthropic

Claude 3.7 Sonnet — Extended Thinking

사용자가 "생각 깊이"를 직접 조절 가능. 코딩·수학에서 당시 최정상 벤치마크 기록. 추론 모델과 일반 모델의 경계를 흐림.

2024.10.22 · Anthropic — 별도 이정표

Computer Use API

Claude가 스스로 마우스를 클릭하고, 키보드를 입력하고, 화면을 보며 작업을 수행. 텍스트 대화를 넘어 실제 컴퓨터 조작으로 진화.

👤 "AWS 콘솔에서 새 EC2 인스턴스 만들어줘"

↓ Computer Use 이전

🤖 "① AWS 콘솔 접속 → ② EC2 클릭 → ③ 인스턴스 시작 버튼..." (지침만 제공)

↓ Computer Use 이후

🤖 [화면 확인 → 브라우저 열기 → 클릭 → 입력 → 완료] 직접 실행

💡 추론 모델과 Computer Use — AI가 말하는 존재에서 스스로 행동하는 존재로 진화한 결정적 전환점

1.5 에이전트·하네스 대중화 2025년~현재

모델은 상품, 하네스는 경쟁력

MCP(Model Context Protocol) 생태계 — 2024.11.25 Anthropic 공개

AI 에이전트 (Claude · GPT 등)

↕ MCP 표준 프로토콜 (USB-C처럼 — AI ↔ 도구 공통 규격)

🗂️ 파일 시스템

🌐 웹 검색

📊 데이터베이스

📧 이메일·슬랙

🔧 GitHub · Jira

⚙️ 사내 API

MCP 이전: AI마다 도구 연결 방식이 달라 각각 별도 구현 필요 → MCP 이후: 한 번 만든 도구 서버를 어느 AI에나 연결 가능

주요 에이전트 도구 비교

⚡

Claude Code

터미널 기반 에이전트. 프로젝트 전체 자율 수정. Anthropic. 2025.

🖱️

Cursor

AI 내장 VSCode 포크. 파일 단위 편집. 비개발자도 진입 용이. 2023~.

🤖

Devin

Cognition AI. "첫 AI 소프트웨어 엔지니어". 독립 작업 공간. 2024.03.12.

🔬

Deep Research

수십 개 소스 수십 분 조사. 리서치 에이전트. OpenAI·Gemini 양쪽 출시.

모델은 상품이 됐다 — 경쟁력은 하네스에서 나온다

2023: "어느 AI가 더 똑똑한가" → 2025: 모델 성능 차이는 좁혀짐
지금의 질문: 같은 AI를 쓰더라도 어떻게 묶어 쓰느냐가 결과를 10배 가른다
→ 이것이 챕터 6 "하네스 엔지니어링"의 핵심 전제

Ch1 참고자료 · 더 깊이 파보기

🌐

ChatGPT 출시 발표

OpenAI 공식 블로그 · 2022.11 · AI 대전환의 시작점 원문

📄

GPT-4 Technical Report

arXiv · 2023.03 · GPT-4의 능력·한계 공식 분석 논문

🔌

Model Context Protocol 발표

Anthropic · 2024.11 · AI 도구 연결 표준 MCP 공식 발표

🖥️

Computer Use 발표

Anthropic · 2024.10 · AI가 컴퓨터를 직접 조작하는 시대

📊

Stanford AI Index Report

Stanford HAI · 매년 업데이트 · AI 현황 종합 분석 최고 보고서

CHAPTER 02

AI는 어떻게 생각하는가

⏱ 약 30분 · 비전공자의 언어로

① 토큰 & 언어 모델 — 초진화한 자동완성

AI가 글을 읽고 쓰는 가장 기본 단위

텍스트가 토큰으로 쪼개지는 과정

안녕 하세요 , 저 는 AI 입니다 .

"다음 토큰" 예측 — AI가 실제로 하는 일

오늘 점심은 뭘 먹을까

→

다음 토큰

라면 42%

샌드위치 29%

김밥 17%

기타 12%

작동 방식

① 문장을 토큰 단위로 분해
② 이전 모든 토큰을 참조해 다음 토큰의 확률 분포 계산
③ 확률이 높은 토큰을 선택해 이어 붙이기
④ 이 과정을 문장이 완성될 때까지 반복

규모가 만드는 기적

단순한 "다음 단어 맞히기"를
수천억 개의 파라미터로
수조 개의 문장으로 학습하면
→ 마치 이해하는 것처럼 동작

💡 AI는 "이해"가 아니라 확률적 예측 — 그런데 충분히 잘하면 이해한 것처럼 보임

② 어텐션 — 문맥에 형광펜 긋기

2017 구글 "Attention Is All You Need" · 트랜스포머 혁명의 핵심

단어 간 관련도 계산 시각화 — "그것"이 무엇을 가리키는지 파악

빨간 사과 는 달콤하고 , 나는 그것 을 베어 물었다

각 단어의 어텐션 가중치

사과

0.92

빨간

0.18

나머지

0.06

멀티헤드 어텐션

실제로는 이런 "형광펜 긋기"를
수십~수백 개의 헤드가 동시에 수행
→ 각 헤드가 다른 관계 패턴 포착
(문법 / 의미 / 논리 관계 등)

💡 "문맥 이해"의 정체는 이 가중치 계산 — 긴 문장에서도 핵심 단어를 놓치지 않는 비결

③ 학습 3단계 — 천재 신입이 만들어지는 과정

모든 대형 언어 모델이 거치는 공통 파이프라인

📚

1단계

사전학습

웹·책·논문
수조 개 문장
"다음 단어 맞히기"
반복 학습

수개월 · 수백억 원

→

🎯

2단계

지시 튜닝 (SFT)

질문-답변 쌍
시범 데이터로
"비서처럼 답하는"
패턴 학습

수일~수주

→

⭐

3단계

RLHF

사람이 답변 비교·평가
선호 답변 학습
보상 모델로
정책 업데이트

인간 피드백 필수

🏢 비유로 이해하기

사전학습 = 도서관 1억 권 독파한 신입
지시 튜닝 = 회사 OJT·업무 매뉴얼 교육
RLHF = 선배 피드백으로 업무 스타일 교정

🔑 왜 중요한가

AI가 "예의 바른" 이유 = 3단계 덕분
모델마다 다른 "성격" = SFT·RLHF 차이
같은 기반 모델이라도 튜닝에 따라
완전히 다른 AI가 탄생

💡 모델이 "예의 바른" 이유는 우연이 아니라 사람이 일일이 가르친 결과

④ 추론 모델 — 답하기 전에 속으로 생각

2024.9 o1 → 2024.12 o3 → 2025.2.25 Claude Extended Thinking

기존 모델

👤 "17 × 24는?"

즉시 ↓

🤖 "408입니다."

빠름 ✓ · 단순 작업에 강함
복잡한 추론엔 실수 가능

추론 모델 (o1, Claude Thinking)

👤 "17 × 24는?"

내부 사고 ↓

💭 17×20=340
💭 17×4=68
💭 340+68=408
💭 검산: 400+8=408 ✓

🤖 "408입니다."

속도

기존 빠름

추론 느림

정확도 (복잡한 추론)

기존 보통

추론 높음

💡 추론 모델 = "더 똑똑한 AI"가 아니라 "생각할 시간을 충분히 받은 AI" — 빠른 AI vs 깊은 AI, 용도에 따라 선택

AI의 3가지 한계 — 알고 쓰면 실력, 모르면 함정

👻

환각 (Hallucination)

모르는 것도 자신 있게 지어냄

AI는 확률적으로 그럴듯한 토큰을 선택하기 때문에, 정답을 모를 때도 "그럴듯한 거짓말"을 생성합니다. 스스로 틀렸다는 것을 인지하지 못합니다.

발생 빈도 높은 유형:

가짜 논문 인용 존재하지 않는 법령 틀린 수치·날짜 가짜 인물 경력

실제 사례 — 2023 Mata v. Avianca

👤 "항공사 과실 관련 판례 찾아줘"

🤖 "Martinez v. Delta Airlines (2012)에서 법원은..." [존재하지 않는 판례]

→ 변호사가 이를 실제 법원에 제출
→ 판사가 가짜 판례 발견해 제재

✅ 대처: 중요한 정보는 반드시 원본 소스 확인

🪟

컨텍스트 윈도우

한 번에 읽을 수 있는 분량의 한계

AI가 한 대화에서 "기억"할 수 있는 토큰 수에는 한계가 있습니다. 100만 토큰 모델도 긴 문서 중간 부분을 놓치는 "Lost in the Middle" 현상이 발생합니다.

모델별 컨텍스트 윈도우 크기

Gemini 1.5

100만 토큰

Claude 3.5

20만 토큰

GPT-4o

12.8만 토큰

Lost in the Middle 현상

📄 문서 처음 부분 — 잘 기억 ✓

📄 문서 중간 부분 — 자주 놓침 ✗

📄 문서 끝 부분 — 잘 기억 ✓

✅ 대처: 핵심 정보는 앞이나 끝에 배치, 긴 문서는 청크 분리

📅

지식 커트오프 (Knowledge Cutoff)

학습 종료 이후 세상은 모름

모델은 학습 데이터 수집 시점까지만 알고 있습니다. 그 이후에 발생한 사건, 출시된 제품, 바뀐 법령은 알지 못합니다.

주요 모델 커트오프 (대략)

GPT-4o ~2024년 초

Claude 3.5 ~2024년 4월

Gemini 1.5 ~2024년 중반

실제 예시

👤 "2025년 최신 iPhone 스펙 알려줘"

🤖 "저는 2024년 초까지의 정보만 알고 있어서 최신 정보는 제공하기 어렵습니다..."

⚠️ 최악의 경우: 모른다고 말하지 않고 "그럴듯한 오래된 정보"를 최신처럼 제공

✅ 대처: 웹 검색 연동 기능 사용 (Perplexity, ChatGPT Browse 등)

💡 AI를 잘 쓰는 사람은 한계를 먼저 안다 — 틀릴 수 있다는 전제로 검증하며 쓰는 것이 실력

Ch2 참고자료 · 더 깊이 파보기

📄

Attention is All You Need

Google Brain·Google Research · 2017 · Transformer 탄생 — 현대 AI의 원조 논문

🔧

OpenAI Tokenizer (직접 체험)

OpenAI · 텍스트 붙여넣기 → 토큰 분리 즉시 확인

🎨

The Illustrated Transformer

Jay Alammar · 시각화로 이해하는 Transformer — 비전공자 필독

📺

But what is a neural network?

3Blue1Brown · YouTube · 뉴럴네트워크 시각적 설명 최강 영상

📺

Let's build GPT: from scratch

Andrej Karpathy · YouTube · 2시간 코딩으로 GPT 직접 구현

CHAPTER 03

AI 전쟁

⏱ 약 30분 · 대형 모델 회사들의 경쟁구도

3.1 Big 4 심층 프로필

각 회사의 전략·강점·포지셔닝

OPENAI

GPT-5 · o3/o4
ChatGPT ~4억 MAU

소비자 1위 에이전트 선봉

전략: 모델+플랫폼+에이전트 수직 통합. ChatGPT를 "AI OS"로 포지셔닝.
강점: 가장 넓은 생태계, GPT 스토어 수백만 GPTs, Operator(브라우저 자율조작), Deep Research.
약점: 안전성·투명성 논란, 지속적 내부 이탈. Microsoft 의존도.

핵심 지표

기업가치 ~$3000억

연매출 ~$40억

API 고객 200만+

ANTHROPIC

Claude Opus 4 · Sonnet 4.5
MCP 표준 주도

기업용 1위 안전성 선도

전략: 안전한 AI + 코딩·에이전트 최강. Constitutional AI로 "윤리적 AI" 포지셔닝.
강점: 긴 문서 처리, 코딩 에이전트(Claude Code), MCP 생태계 표준화, 기업 고객 신뢰.
약점: 소비자 인지도 OpenAI 대비 낮음. Amazon 투자 의존.

핵심 지표

기업가치 ~$650억

AWS 투자 $40억

코딩 벤치 업계 1위

GOOGLE / DEEPMIND

Gemini 2.5 Pro
NotebookLM · Workspace AI

멀티모달 강자 검색 통합

전략: 검색+AI 통합. 20억 명 Google 사용자 기반에 AI 내장.
강점: 멀티모달(텍스트·이미지·음성·영상), 가장 긴 컨텍스트, Workspace 깊숙이 통합, TPU 자체 제작.
약점: 검색 카니발라이제이션 딜레마. Bard 초기 실패로 인한 이미지 타격.

핵심 지표

Workspace 사용자 30억+

컨텍스트 100만 토큰

NotebookLM 급성장

회사	대표 모델 (2026.5)	핵심 에이전트	강점	최적 사용자
OpenAI	GPT-4.1 · o3/o4-mini	Operator · Deep Research	소비자 생태계, 통합 UX	일반 소비자, 비개발자
Anthropic	Claude Opus 4 · Sonnet 4.5	Claude Code · Computer Use	코딩, 긴 문서, 안전성	개발자, 지식노동자, 기업
Google	Gemini 2.5 Pro	Mariner · NotebookLM	멀티모달, 검색 통합	학생, G Suite 사용자
Meta	LLaMA 4 Scout/Maverick	—	오픈소스, 온프레미스	기업 내부 구축, 연구자
DeepSeek	R2 / V3	—	저비용 고성능 추론	비용 민감, API 개발자
xAI	Grok 4	X 통합 에이전트	실시간 소셜 데이터	X 사용자, 실시간 정보 필요

AI가 바꾸는 시장과 비즈니스

⏱ 약 35분 · 내 산업, 내 회사에는 어떤 변화가?

4.1 연구로 증명된 생산성 효과

AI는 말이 아니라 수치로 증명됐다

40%

글쓰기 시간 단축 + 품질 18% 향상

MIT Noy & Zhang 2023 — ChatGPT 사용 직장인 대상

55%

개발 속도 향상

GitHub Copilot 내부 연구 2022 — 동일 과제 기준

25%↑

컨설팅 속도 + 품질 40% 향상

BCG + 하버드 2023 — GPT-4 사용 컨설턴트 실험

$4.4조

달러 연간 부가가치 잠재력

McKinsey 2023 — 전 산업 생성AI 적용 시나리오

AI 사용자 vs 비사용자 — 같은 직무 내 격차

AI 사용 작가 출력량 3× · 품질 동급

AI 미사용 작가 기존 속도

AI 사용 개발자 동일 과제 55% 빠름

AI 미사용 개발자 기준선

핵심: AI는 직무를 없애는 게 아니라 같은 직무 안의 격차를 만든다.
AI 사용자 = 비사용자 3~5명 분 생산성

4.2 산업별 AI 침투 현황

변화는 산업 단위가 아니라 태스크 단위로 온다

HIGH — 이미 바뀌는 중

💻 소프트웨어 개발

Copilot 사용자 150만+. 코드 리뷰·테스트·디버깅 자동화. 바이브 코딩으로 비개발자도 진입.

📣 마케팅·콘텐츠

광고 카피·SNS·이미지 대량 생성. 2025년 디지털 콘텐츠의 30%+ AI 보조 생성 전망.

🎧 고객 서비스

Klarna: AI가 700명 분 CS 처리. Sierra·Intercom AI Agent. 1차 응대 80% 자동화.

MEDIUM — 빠르게 진입 중

⚖️ 법률

Harvey·CoCounsel로 계약 검토·판례 조사 자동화. 규제 허들로 의사결정은 여전히 인간.

🏥 의료

Nuance DAX로 의사 노트 자동화. 영상 판독 보조. FDA 승인 AI 의료기기 급증.

🎓 교육

Khanmigo(칸아카데미) · Duolingo Max · 1:1 AI 튜터. 개인화 학습 본격화.

EARLY — 도메인 특화 단계

🏭 제조·물류

예측 유지보수·품질 검사 특화. 범용 LLM보다 도메인 모델이 더 실용적.

🏗️ 건설·건축

도면 분석·견적 자동화 시작 단계. 현장 적용은 규제·안전 이유로 느림.

🌾 농업

드론+AI 작황 예측. 버티컬 특화 스타트업이 진입. 아직 초기 단계.

💡 "내 산업은 아직 멀었다" — 가장 위험한 착각. 산업이 아니라 내 업무의 어떤 태스크가 자동화 가능한지 보라

4.3 한국 기업 AI 도입 현황 (2025~2026)

네이버 국산 LLM 1위

HyperCLOVA X 기반 Cue: 서비스 · 클로바 스튜디오. 중동·동남아 소버린 AI 수출 전략. 검색 AI 통합.

카카오 메신저 AI 통합

Kanana 자체 모델(2024) 개발. 카카오톡 'AI 메이트' 순차 출시. 5000만 사용자 기반 AI 서비스화.

삼성전자 온디바이스 선도

Galaxy AI 갤럭시 시리즈 내장. Gauss 사내 개발 툴 활용. 반도체 HBM 수요 직접 수혜.

LG 산업 특화

EXAONE 3.0 오픈소스 공개. 화학·바이오·제조 도메인 특화. LG CNS AI 전환 컨설팅 확대.

SKT · KT 텔코 AI

SKT 에이닷 AI 비서. KT 믿:음 기업 서비스. 글로벌 텔코 AI 얼라이언스 참여.

📊 한국 도입 현황

대한상의·IBM IBV 2024: 대기업 생성AI 도입·실험 70%대. 질문은 "할 것이냐" → "어디에, 얼마나 빨리"로 전환.

4.4 AI 도입의 리스크와 대응 전략

🔒 데이터 보안

삼성 2023 ChatGPT 코드 입력 사건

직원이 사내 코드·회의록을 외부 AI에 입력 → 데이터 유출. 기업 기밀이 학습 데이터화 위험.

✅ 사내 AI 정책 수립 + 온프레미스 모델 도입 + 허용 데이터 범위 명확화

⚖️ 저작권·법적 책임

NYT vs OpenAI 소송 진행 중

AI 생성물의 저작권 귀속 미정립. Mata v. Avianca — AI 생성 가짜 판례로 변호사 징계.

✅ AI 결과물 최종 인간 검수 의무화 + 출처 명시 + 법무팀과 사용 가이드라인 수립

🧠 조직 역량 공동화

암묵지(tacit knowledge) 손실

AI에만 의존 → 사람의 판단력·도메인 지식이 쌓이지 않음. 장기적 경쟁력 손실 위험.

✅ AI = 보조 도구, 의사결정·도메인 판단은 사람 유지. AI 결과 검증 능력 육성.

💡 AI 도입 성패는 모델이 아니라 거버넌스(정책·검토 프로세스·교육)가 가른다

Ch4 참고자료 · 더 깊이 파보기

📊

McKinsey AI 현황 보고서

McKinsey · 산업별 AI 생산성·투자·임팩트 글로벌 분석 허브

📊

WEF 미래 직업 보고서

World Economic Forum · AI로 인한 직업 변화 · 2년마다 업데이트

🤖

GitHub Copilot

GitHub · 개발자 생산성 55%↑ 실증 연구 및 사용 가이드 제공

📊

Stanford AI Index Report

Stanford HAI · 직업·경제·사회에 대한 AI 영향 종합 데이터

CHAPTER 05

프롬프트 엔지니어링부터 바이브 코딩까지

⏱ 약 40분 · 오늘 당장 따라 할 수 있는 실전 가이드

5.1 좋은 프롬프트 해부학

역할(Role) + 맥락(Context) + 지시(Task) + 형식(Format)

프롬프트 4요소 해부

        ① 역할
        당신은 10년 경력의 마케팅 팀장입니다.
      
        ② 맥락
        우리는 B2B SaaS 스타트업이며 다음 달 신제품을 출시합니다.
      
        ③ 지시
        LinkedIn 출시 포스트 3개를 작성해 주세요.
      
        ④ 형식
        각 포스트 150자 이내, 이모지 포함, 해시태그 3개.

❌ 모호한 프롬프트

회의록 요약해줘.

결과: AI가 형식·길이·톤을 임의 결정. 매번 다른 결과. 수정 반복.

→

✅ 구조화된 프롬프트

        [역할] 10년 경력 비서입니다.

        [맥락] 임원 보고용 정리.

        [지시] 아래 회의록 요약.

        [형식] 결정사항 3개 + 액션아이템 5개(담당자/기한) + 1페이지 이내 + 존댓말.

        [회의록 붙여넣기]

결과: 일관된 형식, 재사용 가능, 수정 최소화.

💡 프롬프트는 검색어가 아니라 "업무 지시서" — AI를 신입사원 대하듯 구체적으로 지시할수록 좋아진다

5.2 핵심 기법 3가지 — 실제 예시로

🧩 Chain of Thought

"단계별로 생각해보세요"

WITHOUT CoT

Q: "전략 발표 언제가 최적인가?"
A: "화요일 오전이 좋습니다."

WITH CoT → 더 정확한 답

Q: "단계별로 생각해서 최적 발표 시기를 분석해줘."
A: "① 의사결정자 참석률 → ② 경쟁사 일정 → ③ 시장 타이밍 순으로 보면..."

📋 Few-shot

예시 1~3개 먼저 제공

설명만 할 때 (Zero-shot)

"제목은 흥미롭고 클릭을 유도하도록 작성해줘."
→ AI가 "흥미롭다"를 제각각 해석

예시 포함 → 패턴 학습

예시1: "당신이 몰랐던 AI의 7가지 비밀"
예시2: "2분 만에 이해하는 ChatGPT 작동 원리"
→ 이 스타일로 [주제] 제목 5개 작성해줘.

⚙️ System Prompt

한 번 설정, 항상 적용

ChatGPT "사용자 지정 지침" / Claude "Projects" 설정 예시

            나는 B2B SaaS 스타트업 마케터입니다.

            항상 한국어로 답변하세요.

            답변은 핵심 3가지로 요약 후 상세 설명 방식으로 구성해주세요.

            수치와 예시를 반드시 포함하고, 이모지는 사용하지 마세요.

→ 매 대화마다 반복 입력 불필요. 한 번 설정으로 영구 적용.

5.3 바이브 코딩 — AI와 대화하며 소프트웨어 만들기

2025년 초 Andrej Karpathy가 명명 — 코드를 쓰지 않고 AI와 협업해 소프트웨어를 완성

AI 코딩 도구 진화: 보조 → 협업 → 위임

2021~2022

GitHub Copilot

"타이핑 도우미"
줄 단위 자동완성

2023

Cursor

"페어 프로그래머"
파일 단위 편집·생성

2024~2025

Claude Code / Devin

"동료 개발자"
프로젝트 자율 수행

🔄 바이브 코딩 워크플로우

1원하는 것 자연어로 설명

2AI가 코드 생성·실행

3결과 확인, 피드백 제공

4AI가 수정·개선 반복

5완성까지 대화로 진행

✅ 잘 맞는 것

개인 자동화 도구
내부 대시보드
프로토타입·MVP
데이터 분석 스크립트
간단한 웹사이트·랜딩페이지

⚠️ 전문가 영역

결제·금융 시스템
개인정보 처리 시스템
대규모 운영 서비스
레거시 대형 코드베이스
보안 크리티컬 인프라

💡 바이브 코딩은 프로토타입·개인 도구에 최강. 운영 서비스는 여전히 전문가 영역 — 목적에 맞게 구분해 사용

Ch5 참고자료 · 더 깊이 파보기

📘

OpenAI 프롬프트 엔지니어링 가이드

OpenAI · 공식 프롬프트 작성 모범 사례 6가지 상세 설명

📘

Anthropic 프롬프트 엔지니어링 가이드

Anthropic · Claude 특화 프롬프트 작성법 · 역할/맥락/형식 패턴

⌨️

Cursor IDE

바이브 코딩의 대표 도구 · AI와 페어 프로그래밍 · 무료 플랜 있음

⌨️

Claude Code

Anthropic · 터미널 기반 AI 에이전트 코딩 도구 (이 자료 제작에 사용)

CHAPTER 06

하네스 엔지니어링

⏱ 약 40분 · 에이전트·에이전틱 AI·하네스 설계

6.1 에이전트(Agent)란 무엇인가

챗봇과 에이전트는 근본적으로 다르다

💬 챗봇 — 질문·답변 기계

목적 정보 제공·대화

방식 질문 → 답변 (1회 왕복)

도구 없음 (텍스트만)

예시 "파이썬 리스트 정렬 방법 알려줘"

→

🤖 에이전트 — 자율 실행자

목적 목표 달성 · 작업 완수

방식 계획 → 도구 사용 → 실행 → 반복

도구 웹검색·파일·API·코드 실행 등

예시 "경쟁사 조사 후 보고서 작성해줘" → 직접 검색·작성·저장

에이전트의 4가지 구성 요소

🎯

Goal

무엇을 달성할지
명확한 목표 정의

🧠

Memory

단기(대화 내)
장기(외부 저장소)

🔧

Tools

웹검색·파일·API
코드실행·이메일

⚡

Action

실제 세계에
영향을 미치는 행동

💡 "AI에게 묻는다"에서 "AI에게 시킨다"로 — 이 사고 전환이 에이전트 시대의 출발선

6.2 에이전트 루프 — AI가 일하는 방식

단 한 번의 응답이 아니라 목표 달성까지 반복하는 사이클

👁️

Perceive

환경 관찰
입력 수집

→

🧩

Plan

목표 분해
순서 결정

→

⚡

Act

도구 실행
결과 생성

→

📊

Reflect

결과 평가
오류 수정

↩

목표 달성까지 이 사이클을 자율 반복

실제 에이전트 실행 예시: "경쟁사 3곳 가격 조사 후 비교표 만들어줘"

Perceive 사용자 요청 이해: 경쟁사 3곳, 가격, 비교표 형식 필요

Plan ① A사 가격 검색 → ② B사 가격 검색 → ③ C사 가격 검색 → ④ 표 생성

Act ×3 [웹검색 도구] A사 사이트 접근, 가격 스크래핑 × 3회

Reflect C사 가격 불명확 → 공식 연락처 추가 검색 → 재시도

완료 비교표 생성 + 파일 저장 + 보고

💡 에이전트의 핵심: 사람이 "다음 어떻게 해?" 물어볼 필요 없이 스스로 판단하고 반복하며 목표 도달

6.3 에이전틱 AI (Agentic AI) — 새 패러다임

단순 에이전트를 넘어 — 자율성·지속성·협력의 3축

AI 자율성 진화 4단계

LEVEL 1

챗봇

질문하면 답함.
기억 없음.
행동 없음.

예: 초기 ChatGPT

LEVEL 2

도구 사용 AI

검색·계산기 등
도구 호출 가능.
1회 실행.

예: ChatGPT + 플러그인

LEVEL 3

에이전트

목표 향해 계획.
자율 반복 실행.
자기 수정.

예: Claude Code, Devin

LEVEL 4

에이전틱 AI

다중 에이전트 협력.
장기 지속 실행.
목표 자체 재설정.

예: 하네스 시스템

에이전틱 AI의 5가지 핵심 특징

🔄

① 다단계 추론 (Multi-step Reasoning)

하나의 복잡한 목표를 여러 하위 작업으로 분해하고, 각 단계 결과를 바탕으로 다음 단계를 결정. 단순 Q&A가 아닌 프로젝트 수준의 사고.

🧠

② 지속적 메모리 (Persistent Memory)

단기: 현재 대화 내용. 장기: 외부 DB·파일에 저장된 맥락. 이전 작업 결과를 기억하고 새 작업에 활용. 대화를 넘어 지속되는 맥락.

🔧

③ 도구 통합 (Tool Use)

웹 검색, 코드 실행, 파일 읽기/쓰기, API 호출, 이메일 발송 등 외부 도구를 자율적으로 선택·실행. 텍스트 생성을 넘어 실제 행동.

✏️

④ 자기 수정 (Self-correction)

중간 결과가 기대와 다르면 스스로 감지하고 전략 변경. 오류 발생 시 재시도·대안 탐색. 사람이 일일이 체크하지 않아도 되는 이유.

🌐

⑤ 다중 에이전트 협력 (Multi-agent)

하나의 에이전트가 다른 에이전트에게 하위 작업을 위임. 병렬로 여러 에이전트가 동시 작업. 이것이 "하네스"의 본질.

💡 에이전틱 AI = 단순 자동화가 아니라 목표 지향적 자율 시스템 — 사람이 감독하되, AI가 알아서 일을 끝냄

6.4 하네스 엔지니어링이란

에이전트 하나가 아니라 — AI 팀 전체를 설계하는 일

비유로 이해하기

모델 = 직원 (능력자)
에이전트 = 역할 맡은 팀원
하네스 = 조직도 + 업무 프로세스 + 도구 환경

같은 직원이라도 조직 설계가 좋으면 10배 성과. 같은 AI 모델도 하네스 설계에 따라 결과가 극명히 갈림.

하네스가 포함하는 것들

▸어떤 에이전트가 필요한가 (역할 정의)

▸어떤 순서로 작업을 넘기는가 (플로우)

▸어떤 도구를 어떤 에이전트가 쓰는가

▸에이전트 간 통신 방식 (MCP 등)

▸품질 검증은 어디서 하는가

▸사람 개입 시점은 언제인가

6.5 핵심 오케스트레이션 패턴 3가지

🔗

파이프라인

A → B → C

릴레이 경주처럼 순서대로 넘김. 앞 단계 결과가 다음 단계 입력이 됨. 순서가 중요한 작업에 최적.

자료 조사 → 초안 작성 → 편집·교정 → 발행

장점: 구조 명확, 추적 쉬움
단점: 앞 단계 오류가 전파됨
적합: 보고서·콘텐츠 제작

🌐

팬아웃·팬인

1 → N → 1

오케스트레이터가 여러 에이전트에 병렬 분배 → 각자 처리 → 편집자가 취합. 시간을 획기적으로 단축.

오케스트레이터

↙ ↓ ↘

에이전트A 에이전트B 에이전트C

↘ ↓ ↙

편집자 (통합)

장점: 빠름, 병렬 처리
단점: 통합 난이도 높음
적합: 다중 주제 리서치

✅

생성·검증

생성 → 검토 ⟲

생성 에이전트가 초안 작성 → 검증 에이전트가 품질 체크 → 기준 미달 시 재생성 반복. 품질이 중요한 작업의 핵심.

생성 에이전트 → 검증 에이전트 → 통과?

✓ 완료 ✗ 재생성

장점: 높은 품질 보장
단점: 반복으로 느릴 수 있음
적합: 보고서·코드·법률 문서

6.6 이 강의 자료가 만들어진 과정

팬아웃 + 팬인 + 생성·검증 — 세 패턴을 결합한 실제 하네스

① 팬아웃 — 4개 에이전트 병렬 작업

역사 연구가 (1~2장)

모델 분석가 (3장)

트렌드 리서처 (4장)

방법론 전문가 (5~6장)

↓ ② 팬인 — 통합

콘텐츠 편집자 (중복 제거·구조 통일)

↓ ③ 생성·검증 루프

팩트 체커 (수치·날짜·사실 검증 → 수정)

↓ 완료

지금 이 페이지 — 검증된 최종 강의 자료

6.7 지금 시작하는 법

연도별 핵심 역량 변화

2023

프롬프트 — 잘 묻는 사람이 유리

2024~25

에이전트 — 잘 시키는 사람이 유리

2026~

하네스 설계 — AI 팀을 설계하는 사람이 유리

비전공자에게 오히려 더 유리한 영역
코드가 아니라 역할과 흐름을 그리는 일 — 기획자·관리자가 더 잘함

첫 하네스 4단계

1단계

Claude Code 설치

에이전트 실행 환경 준비

2단계

"하네스 구성해줘" 입력

자동 설계 시작, 역할 제안 받기

3단계

필요한 전문가 역할 한국어로 나열

예: "조사가, 작성가, 검토자 필요해"

4단계

순서·검토자 지정 → 실행

추천 첫 프로젝트: 팀 주간보고 자동화

💡 첫 하네스는 "내가 매주 반복하는 일"에서 시작 — 완벽함보다 돌아가는 것부터

6.8 실전 하네스 예시 — 지금 바로 적용

비개발자도 Claude.ai만으로 오늘 만들 수 있는 업무 자동화

📋

예시 1 — 팀 주간 보고서 자동화

매주 2시간 → 15분 · 파이프라인 패턴 · 비개발자 OK

난이도 ★☆☆

하네스 구조 (파이프라인)

📥

① 수집 에이전트

팀원 업무 현황 텍스트 수집·구조화

↓ 구조화된 데이터 전달

✍️

② 작성 에이전트

보고서 초안 자동 작성

↓ 초안 전달

✅

③ 검토 에이전트

경영진 눈높이 다듬기 + 200자 요약 추가

↓ 완성

📊

완성 보고서

경영진 1페이지 요약 + 팀 상세본

Before → After 비교

주간 보고서 소요 시간

기존 방식2시간

하네스 적용15분

기존 프로세스

팀원 개별 연락 → 형식 통일 → 직접 편집 → 발송

하네스 프로세스

현황 입력 → 자동 초안 → 검토 10초 → 발송

💡 사람이 할 일: 현황 입력 + 최종 확인 10초

🔍

예시 2 — 고객 피드백 100개 분석

3일 → 1시간 · 팬아웃 + 생성·검증 결합 패턴

난이도 ★★☆

오케스트레이터 — 피드백 100개 수신

↙↓ 팬아웃↘

불만 분류가

카테고리별 정렬
심각도 점수화

칭찬 분류가

긍정 패턴 추출
강점 리스트

개선 분류가

개선요청 정리
우선순위 매김

↘↓ 팬인↙

통합 분석가 → 인사이트 리포트 초안

↓ 생성·검증 루프

검증 에이전트 → 기준 미달 시 재생성 요청

↓ 검증 통과

최종 고객 인사이트 리포트 완성

기존: 리뷰 읽기 3일 + 분석 1일 = 총 4일

하네스: 데이터 붙여넣기 5분 + 결과 확인 = 1시간

🛠 실습 — 주간 보고서 하네스 30분 만들기

아래 프롬프트를 순서대로 Claude.ai에 복사·붙여넣기 하세요

🎯

준비물: Claude.ai 계정 (무료 가능) · 이번 주 팀 업무 현황 메모 · 30분

Claude에게 총괄 매니저 역할 부여

Claude.ai에서 새 대화를 열고 아래 프롬프트를 첫 번째로 입력합니다.
Claude에게 이 대화 전체의 컨텍스트(목적·형식·역할)를 주는 단계입니다.

당신은 팀 주간 보고서 작성 하네스의 총괄 매니저입니다. 오늘 당신의 역할: 1. 내가 제공하는 팀원 업무 현황을 받아서 2. 경영진용 1페이지 요약과 팀용 상세 버전, 두 가지를 만들기 보고서 형식: - 경영진 요약: 3줄 이내, 핵심 성과 + 이슈 + 다음 주 계획 - 팀 상세: 팀원별 진행상황 · 블로커 · 이번 주 완료 항목 준비되면 "준비 완료"라고만 답해주세요.

✅ 예상 응답: "준비 완료" — 이제 Claude가 보고서 하네스 모드로 전환됩니다

팀원 현황 입력 → 초안 자동 생성

아래 템플릿에 실제 팀원 현황을 채워서 입력합니다. 짧게 적어도 됩니다 — AI가 형식을 맞춰줍니다.

이번 주 팀 현황입니다: [팀원 이름 1]: - 완료한 일: - 진행 중인 일: - 막히는 것(이슈): (없으면 "없음") - 다음 주 계획: [팀원 이름 2]: - 완료한 일: - 진행 중인 일: - 막히는 것(이슈): (없으면 "없음") - 다음 주 계획: 위 내용으로 보고서 초안을 만들어주세요.

✅ 예상 결과: 경영진 요약 3줄 + 팀 상세 보고서가 자동으로 생성됩니다

검증 에이전트 역할 — 품질 자동 체크 (생성→검증 루프)

초안이 나오면, 같은 대화에서 아래를 입력합니다.
이것이 생성→검증 루프의 핵심입니다. Claude가 스스로 기준에 맞는지 점검하고 고칩니다.

이제 검증 에이전트로 전환합니다. 방금 만든 보고서를 아래 기준으로 체크하고, 기준 미달 항목은 즉시 수정해주세요: 체크리스트: □ 경영진 요약이 3줄 이내인가? □ 모든 팀원이 포함되었는가? □ 각 팀원의 이슈가 명시되었는가? (없으면 "없음"으로 표시) □ 다음 주 계획이 동사로 시작하는 구체적 행동 항목인가? □ 전문 용어 없이 경영진이 이해 가능한가? 체크 결과 표 + 수정본을 함께 보여주세요.

✅ 예상 결과: 체크리스트 결과 표 + 미달 항목 자동 수정 + 최종 완성 보고서

하네스 지침서 생성 — 팀 전체 공유용

오늘 만든 이 흐름을 팀 전체가 매주 쓸 수 있도록 "지침서"로 저장합니다.
Claude.ai의 Projects 기능에 시스템 프롬프트로 저장하면 다음 주부터 Step 1 없이 바로 시작됩니다.

오늘 우리가 한 작업 흐름을 재사용 가능한 "팀 주간보고 하네스 지침서"로 정리해줘. 포함할 내용: 1. 역할 설정 프롬프트 (Step 1 내용) 2. 데이터 입력 템플릿 (Step 2 형식) 3. 검증 기준 체크리스트 (Step 3) 4. 예상 소요 시간 및 사용 방법 안내 마크다운 형식으로, 팀원에게 바로 공유 가능하게 작성해줘.

✅ 결과: 팀 AI 운영 메뉴얼 첫 페이지 완성 — 이것이 당신 팀의 첫 번째 하네스입니다 🎉

발전 단계 — 더 강력한 하네스로 확장

📅 Claude Code 자동화

Claude Code와 슬랙 MCP 연동 → 팀원이 슬랙에 업데이트 올리면 자동으로 하네스 실행

🔀 팬아웃으로 확장

팀이 3개 이상이면 팀별 병렬 실행 → 오케스트레이터가 전사 보고서로 자동 통합

📊 Notion 자동 저장

Notion MCP 연결 → 완성 보고서 자동 저장 + 슬랙 링크 발송까지 풀 자동화

🚀 첫 하네스를 만든 후 가장 많이 듣는 말: "이걸 왜 지금까지 안 했지?" — 완벽함보다 돌아가는 것부터 시작하세요

Ch6 참고자료 · 더 깊이 파보기

📘

Building Effective Agents