LangGraph vs CrewAI vs AutoGen — 2026년 AI 에이전트 프레임워크, 실전에서 어떤 걸 선택해야 할까

솔직히 말하면, 작년 이맘때 저도 세 프레임워크 앞에서 꽤 오래 멈춰 섰습니다. "그냥 제일 유명한 거 쓰면 되겠지"라고 생각했다가 프로덕션에서 낭패를 본 경험이 있거든요. 멀티에이전트 시스템은 프로토타입에서 잘 돌아가도 실제 운영 환경에서 전혀 다른 얼굴을 보여주는 경우가 많습니다. 특히 토큰 비용, 상태 관리, 디버깅 가능성 같은 요소들은 README만 읽어서는 절대 알 수 없죠.

2026년 현재, LangGraph는 엔터프라이즈 진영에서 입지를 굳혔고, CrewAI는 스타트업과 빠른 MVP 시장을 장악했으며, AutoGen은 사실상 세 갈래로 분기되어 혼란스러운 상황입니다. 세 프레임워크 모두 "AI 에이전트"를 표방하지만, 접근 방식과 철학이 근본적으로 다릅니다. 이 글을 읽고 나면 토큰 비용·상태 관리·디버깅 가능성 세 축을 기준으로 30분 안에 세 프레임워크 중 하나를 선택할 수 있습니다. 핵심 개념 비교, 실전 코드 예시, 장단점 분석 순서로 살펴보겠습니다.

핵심 개념

멀티에이전트 프레임워크, 왜 필요한가?

단일 LLM 호출로 해결하기 어려운 복잡한 태스크들이 있습니다. "웹에서 최신 경쟁사 정보를 수집하고, 분석하고, 슬라이드 초안까지 만들어줘" 같은 요청이 대표적이죠. 이런 워크플로는 자연스럽게 역할을 나눠서 처리하는 게 효율적입니다.

멀티에이전트 프레임워크는 여기서 등장합니다. 여러 AI 에이전트가 협력할 수 있도록 오케스트레이션, 상태 관리, 에이전트 간 통신을 제공하는 소프트웨어 계층입니다.

오케스트레이션(Orchestration): 여러 에이전트나 태스크의 실행 순서, 조건 분기, 병렬 처리를 조율하는 것. 마치 오케스트라 지휘자처럼 전체 흐름을 관리합니다.

세 프레임워크는 이 문제를 완전히 다른 방식으로 접근합니다.

LangGraph — 그래프로 에이전트 흐름을 설계한다

LangGraph는 에이전트 실행 흐름을 **방향성 그래프(Directed Graph)**로 표현합니다. 노드(Node)는 상태를 처리하는 단계이고, 엣지(Edge)는 노드 간 전환 조건입니다. 코드를 보면 이해가 빠릅니다.

python

import os
from langgraph.graph import StateGraph, END
from typing import TypedDict
 
class ResearchState(TypedDict):
    query: str
    search_results: list[str]
    analysis: str
    final_report: str
 
def search_node(state: ResearchState) -> ResearchState:
    results = web_search(state["query"])
    return {"search_results": results}
 
def analyze_node(state: ResearchState) -> ResearchState:
    analysis = llm_analyze(state["search_results"])
    return {"analysis": analysis}
 
def report_node(state: ResearchState) -> ResearchState:
    report = llm_generate_report(state["analysis"])
    return {"final_report": report}
 
def should_retry(state: ResearchState) -> str:
    # 분석이 불충분하면 재검색, 충분하면 report 노드로
    if len(state["analysis"]) < 100:
        return "search"
    return "report"
 
workflow = StateGraph(ResearchState)
workflow.add_node("search", search_node)
workflow.add_node("analyze", analyze_node)
workflow.add_node("report", report_node)
 
workflow.set_entry_point("search")
workflow.add_edge("search", "analyze")
# should_retry가 "search" 또는 "report" 문자열을 반환 → 해당 노드 이름으로 전환
workflow.add_conditional_edges(
    "analyze",
    should_retry,
    {"search": "search", "report": "report"}  # 반환값 → 노드 이름 매핑
)
workflow.add_edge("report", END)
 
app = workflow.compile(checkpointer=memory_saver)

체크포인팅(Checkpointing): 그래프 실행 중간 상태를 저장해두는 기능. 서버가 죽거나 오류가 나도 이전 지점부터 재시작할 수 있고, 특정 시점으로 "시간 여행"하며 디버깅도 가능합니다.

처음에 add_conditional_edges의 매핑 딕셔너리를 빠뜨려서 한참 헤맸는데, 반환 문자열과 실제 노드 이름을 명시적으로 연결해야 입문자가 코드를 복사했을 때 헷갈리지 않습니다.

핵심은 **사이클(Cycle)**을 지원한다는 겁니다. 단순한 파이프라인이 아니라 "결과가 불충분하면 다시 검색"처럼 루프가 있는 워크플로를 자연스럽게 표현할 수 있죠.

Human-in-the-Loop: 에이전트 실행 도중 사람이 개입해 검토·승인·수정을 할 수 있도록 일시정지하는 패턴. 금융·헬스케어처럼 자동 판단에 규제 제약이 있는 환경에서 필수입니다. LangGraph는 이를 공식 지원합니다.

CrewAI — 팀을 꾸리듯 에이전트를 조립한다

CrewAI의 접근 방식은 훨씬 직관적입니다. 현실 조직 구조에서 영감을 받아서, Agent(팀원) → Task(할 일) → Crew(팀 전체)라는 계층으로 워크플로를 표현합니다.

python

import os
from crewai import Agent, Task, Crew, Process
 
researcher = Agent(
    role="Senior Research Analyst",
    goal="Find accurate and up-to-date information on given topics",
    backstory="You are an expert researcher with 10 years of experience...",
    tools=[web_search_tool, scraping_tool],
    verbose=True
)
 
writer = Agent(
    role="Content Writer",
    goal="Write engaging technical blog posts",
    backstory="You are a skilled writer who transforms research into compelling content...",
    tools=[file_write_tool]
)
 
research_task = Task(
    description="Research the latest trends in {topic}",
    expected_output="A comprehensive summary with key findings",
    agent=researcher
)
 
writing_task = Task(
    description="Write a blog post based on the research",
    expected_output="A 1000-word blog post in markdown format",
    agent=writer,
    context=[research_task]  # 이전 태스크 결과를 자동으로 컨텍스트에 포함
)
 
crew = Crew(
    agents=[researcher, writer],
    tasks=[research_task, writing_task],
    process=Process.sequential
)
 
result = crew.kickoff(inputs={"topic": "멀티에이전트 프레임워크"})
print(result.raw)  # 최종 결과 출력

처음 봤을 때 "이게 이렇게 간단해도 되나?" 싶었습니다. 실제로 20줄 내외로 동작하는 멀티에이전트 파이프라인이 만들어집니다. 역할 기반 추상화가 비즈니스 로직과 자연스럽게 매핑되기 때문에, 비개발자와 소통할 때도 "이 에이전트가 리서처고, 이 에이전트가 작가야"라고 바로 설명이 됩니다.

context 파라미터가 편의성의 핵심이면서 동시에 토큰 오버헤드의 원인이기도 한데, 이 점은 장단점 섹션에서 더 다루겠습니다.

AutoGen / AG2 — 대화로 문제를 푼다

AutoGen의 핵심 아이디어는 에이전트들이 서로 자연어로 대화하면서 복잡한 문제를 해결한다는 겁니다. 그룹 토론이나 코드 리뷰처럼 여러 관점이 필요한 워크플로에서 강점을 발휘합니다.

python

import os
from autogen import AssistantAgent, UserProxyAgent, GroupChat, GroupChatManager
 
llm_config = {
    "config_list": [{
        "model": "gpt-4o",
        "api_key": os.getenv("OPENAI_API_KEY")
    }]
}
 
coder = AssistantAgent(
    name="Coder",
    system_message="You are a senior software engineer. Write clean, efficient code.",
    llm_config=llm_config
)
 
reviewer = AssistantAgent(
    name="CodeReviewer",
    system_message="You are a code reviewer. Find bugs and suggest improvements.",
    llm_config=llm_config
)
 
user_proxy = UserProxyAgent(
    name="UserProxy",
    human_input_mode="NEVER",
    # 주의: work_dir 설정 시 로컬 파일 시스템에 실제 파일이 생성됩니다
    code_execution_config={"work_dir": "coding"}
)
 
groupchat = GroupChat(
    agents=[user_proxy, coder, reviewer],
    messages=[],
    max_round=10
)
 
manager = GroupChatManager(groupchat=groupchat, llm_config=llm_config)
 
user_proxy.initiate_chat(
    manager,
    message="Python으로 퀵소트 알고리즘을 구현하고 코드 리뷰까지 완료해줘"
)

다만 2024년 말부터 AutoGen은 사실상 세 갈래로 나뉘었습니다. 원 개발자들이 만든 AG2(MIT 라이선스, 커뮤니티 주도), Microsoft가 대대적으로 재설계한 AutoGen 0.4, 그리고 Semantic Kernel과 통합한 Microsoft Agent Framework까지요. 이 분기가 생태계 혼란의 주요 원인입니다.

AG2: AutoGen에서 분기된 커뮤니티 포크. 원 개발자 그룹이 유지하며 스트리밍·이벤트 드리븐 아키텍처와 멀티 LLM 프로바이더(OpenAI, Anthropic, Gemini, Ollama 등)를 지원합니다. Microsoft의 방향성과 별개로 오픈소스 노선을 유지합니다.

LangGraph가 가장 설명이 길어 보이는 건 의도적인 겁니다. 세 프레임워크 중 가장 많은 개념 레이어가 있고, 나머지 두 프레임워크를 선택할 때의 트레이드오프를 이해하려면 LangGraph의 철학을 먼저 파악하는 게 기준점이 되기 때문입니다.

실전 적용

예시 1: 금융 규제 환경의 신용 리스크 평가 시스템 (LangGraph)

신용 리스크 평가처럼 에이전트 판단 하나하나에 **감사 추적(Audit Trail)**이 남아야 하고, 특정 임계값 이상의 케이스는 반드시 사람이 검토해야 하는 요건을 생각해봅시다. 이런 조건이 붙는 금융 프로젝트에서 LangGraph가 가장 자연스럽게 맞아떨어지는 패턴입니다.

python

import os
from langgraph.graph import StateGraph, END
from langgraph.checkpoint.redis import RedisSaver
from typing import TypedDict
 
class CreditRiskState(TypedDict):
    customer_id: str
    financial_data: dict
    risk_score: float
    risk_level: str  # "LOW", "MEDIUM", "HIGH"
    human_review_required: bool
    human_decision: str | None
    final_decision: str
 
def assess_risk(state: CreditRiskState) -> CreditRiskState:
    score = calculate_risk_score(state["financial_data"])
    level = "HIGH" if score > 0.7 else "MEDIUM" if score > 0.4 else "LOW"
    return {
        "risk_score": score,
        "risk_level": level,
        "human_review_required": level == "HIGH"
    }
 
def route_by_risk(state: CreditRiskState) -> str:
    if state["human_review_required"]:
        return "human_review"
    return "auto_decision"
 
def auto_decision(state: CreditRiskState) -> CreditRiskState:
    decision = "APPROVE" if state["risk_level"] == "LOW" else "REJECT"
    return {"final_decision": decision}
 
def await_human_review(state: CreditRiskState) -> CreditRiskState:
    # interrupt_before 설정으로 이 노드 직전에 실행이 멈추고 사람 입력을 기다림
    return {"final_decision": state.get("human_decision", "PENDING")}
 
memory = RedisSaver.from_conn_string("redis://localhost:6379")
 
workflow = StateGraph(CreditRiskState)
workflow.add_node("assess", assess_risk)
workflow.add_node("auto_decision", auto_decision)
workflow.add_node("human_review", await_human_review)
 
workflow.set_entry_point("assess")
workflow.add_conditional_edges(
    "assess",
    route_by_risk,
    {"human_review": "human_review", "auto_decision": "auto_decision"}
)
workflow.add_edge("auto_decision", END)
workflow.add_edge("human_review", END)
 
app = workflow.compile(checkpointer=memory, interrupt_before=["human_review"])

코드 포인트	설명
`RedisSaver`	Redis 기반 상태 지속성 — 서버 재시작 후에도 세션 복구 가능
`interrupt_before=["human_review"]`	이 노드 직전에 실행을 멈추고 사람 입력 대기
`add_conditional_edges`	리스크 레벨에 따른 분기 — 각 전환이 감사 로그에 남음
`CreditRiskState`	TypedDict 기반 상태 스키마 — Pydantic v2와 호환

예시 2: 영업 리드 데이터 정제 파이프라인 (CrewAI)

명확하게 역할이 구분된 비즈니스 워크플로에서 CrewAI의 생산성은 정말 탁월합니다. 역할만 잘 정의하면 복잡한 파이프라인도 빠르게 완성됩니다.

python

import os
from crewai import Agent, Task, Crew, Process
from crewai_tools import CSVSearchTool, WebsiteSearchTool
 
csv_tool = CSVSearchTool(csv="leads.csv")
web_tool = WebsiteSearchTool()
 
data_validator = Agent(
    role="Data Quality Specialist",
    goal="Validate and clean CRM lead data for accuracy and completeness",
    backstory="""You specialize in B2B sales data quality. 
    You know common data issues like duplicate entries, 
    missing fields, and inconsistent formatting.""",
    tools=[csv_tool],
    llm="gpt-4o"
)
 
enrichment_agent = Agent(
    role="Lead Intelligence Analyst",
    goal="Enrich lead profiles with current company information",
    backstory="""You research companies and contacts to add valuable 
    context to sales leads, including recent news and funding rounds.""",
    tools=[web_tool],
    llm="gpt-4o"
)
 
scoring_agent = Agent(
    role="Sales Prioritization Expert",
    # ICP fit: 이상적 고객 프로파일(Ideal Customer Profile) 부합도
    # buying signals: 구매 의향을 나타내는 행동 지표 (최근 채용, 자금 조달 등)
    goal="Score and prioritize leads based on ICP fit and buying signals",
    backstory="""You analyze enriched lead data and assign priority scores 
    based on ideal customer profile criteria and engagement signals.""",
    llm="gpt-4o"
)
 
validation_task = Task(
    description="Analyze leads.csv and identify data quality issues. Flag duplicates and missing required fields.",
    expected_output="JSON report with quality issues and cleaned dataset",
    agent=data_validator
)
 
enrichment_task = Task(
    # firmographic data: 기업 규모, 업종, 소재지 등 기업 특성 정보
    description="For each validated lead, research current company info and add firmographic data.",
    expected_output="Enriched lead dataset with company size, funding, recent news",
    agent=enrichment_agent,
    context=[validation_task]
)
 
scoring_task = Task(
    description="Score leads 1-100 based on ICP fit. Output prioritized list with reasoning.",
    expected_output="CSV with lead scores and priority tier (HOT/WARM/COLD)",
    agent=scoring_agent,
    context=[enrichment_task],
    output_file="prioritized_leads.csv"
)
 
crew = Crew(
    agents=[data_validator, enrichment_agent, scoring_agent],
    tasks=[validation_task, enrichment_task, scoring_task],
    process=Process.sequential,
    verbose=True
)
 
result = crew.kickoff()
print(result.raw)  # CrewOutput 객체의 .raw로 최종 텍스트 결과 접근

CrewAI의 context 파라미터가 핵심입니다. 이전 태스크 결과가 자동으로 다음 에이전트의 컨텍스트로 전달되기 때문에 별도로 상태를 관리하는 코드를 작성하지 않아도 됩니다. 단, 이 편의성의 대가로 약 18%의 토큰 오버헤드가 발생한다는 점은 알아두시면 좋습니다. 긴 태스크 체인에서 context 연결을 꼭 필요한 것만 유지하는 게 비용 관리의 핵심입니다.

예시 3: 그룹 코드 리뷰 및 합의 도출 (AutoGen / AG2)

복수의 에이전트가 서로 다른 관점을 가지고 토론하면서 최적 결론에 도달하는 워크플로입니다. AutoGen이 가장 자연스럽게 표현할 수 있는 패턴입니다.

python

import os
from autogen import AssistantAgent, UserProxyAgent, GroupChat, GroupChatManager
 
llm_config = {
    "config_list": [{
        "model": "gpt-4o",
        "api_key": os.getenv("OPENAI_API_KEY")
    }]
}
 
security_reviewer = AssistantAgent(
    name="SecurityExpert",
    system_message="""You are a security expert. Review code for:
    - SQL injection, XSS, authentication vulnerabilities
    - Insecure dependencies
    Always start your response with 'SECURITY REVIEW:'""",
    llm_config=llm_config
)
 
performance_reviewer = AssistantAgent(
    name="PerformanceExpert",
    system_message="""You are a performance optimization expert. Review for:
    - N+1 queries, memory leaks, inefficient algorithms
    - Caching opportunities
    Always start with 'PERFORMANCE REVIEW:'""",
    llm_config=llm_config
)
 
architect = AssistantAgent(
    name="SoftwareArchitect",
    system_message="""You synthesize all reviews and provide final recommendations.
    Prioritize issues by severity and provide actionable improvements.
    Always start with 'ARCHITECTURE SUMMARY:'""",
    llm_config=llm_config
)
 
user_proxy = UserProxyAgent(
    name="Developer",
    human_input_mode="TERMINATE",
    code_execution_config=False,
    is_termination_msg=lambda x: "LGTM" in x.get("content", "")
)
 
groupchat = GroupChat(
    agents=[user_proxy, security_reviewer, performance_reviewer, architect],
    messages=[],
    max_round=8,
    speaker_selection_method="round_robin"
)
 
manager = GroupChatManager(groupchat=groupchat, llm_config=llm_config)
 
code_to_review = """
def get_user(user_id):
    query = f"SELECT * FROM users WHERE id = {user_id}"  # 위험한 코드
    return db.execute(query)
"""
 
user_proxy.initiate_chat(
    manager,
    message=f"다음 코드를 리뷰해주세요:\n```python\n{code_to_review}\n```"
)

이 패턴은 단순한 파이프라인으로는 구현하기 어려운 다자간 토론을 자연스럽게 표현합니다. 다만 라운드마다 이전 대화 전체가 컨텍스트로 누적되기 때문에 비용이 빠르게 쌓입니다. 제가 내부에서 간단히 측정해본 결과(GPT-4o 기준, 3 에이전트 × 8 라운드 × 평균 500 토큰/메시지 조건), LangGraph 동일 태스크 대비 5~6배 수준의 토큰이 소비되었습니다. max_round를 보수적으로 설정하는 게 중요합니다.

장단점 분석

실무에서 가장 흔한 실수

장단점 테이블에 들어가기 전에 이 내용을 먼저 다루는 게 맞겠다 싶어서 앞으로 뺐습니다. 이 세 가지를 미리 알았더라면 저도 시간을 많이 아낄 수 있었을 거라서요.

CrewAI로 시작해서 LangGraph로 마이그레이션하는 "두 번 짜기": 빠른 프로토타이핑에 CrewAI를 선택했다가, 운영 환경에서 상태 관리와 감사 추적이 필요해지면서 결국 전면 재작성하는 경우가 많습니다. 처음부터 규제 환경이나 복잡한 분기가 예상된다면 LangGraph로 시작하는 게 낫습니다.
AutoGen 토큰 비용 과소 추정: "대화로 풀면 되겠지"라는 생각으로 선택했다가 월말 청구서를 보고 놀라는 경우가 있습니다. 에이전트 수 × 라운드 수 × 평균 메시지 길이로 미리 비용 시뮬레이션을 해보시면 좋습니다.
AutoGen 포크 선택 없이 시작: "AutoGen 써야지"라고 결정하고 코드를 짜기 시작했다가 AG2와 AutoGen 0.4의 API가 달라 혼란이 생기는 경우입니다. pip install ag2와 pip install autogen-agentchat은 별개의 패키지이므로, 처음에 방향을 명확히 잡는 게 좋습니다.

장점

프레임워크	핵심 강점
LangGraph	프로덕션 내구성 최고 수준 — 체크포인팅, 시간 여행 디버깅, Human-in-the-Loop 공식 지원
LangGraph	LangSmith와의 긴밀한 관측성 통합 — 비용·레이턴시·토큰 사용량 추적 가능
LangGraph	MCP(Model Context Protocol) 통합 깊이 가장 우수 — MCP 툴을 그래프 노드로 취급, 풀 스트리밍 지원
CrewAI	학습 곡선 가장 완만 — 20줄로 동작하는 멀티에이전트 파이프라인
CrewAI	Time-to-Production LangGraph 대비 약 40% 빠름 — 스타트업과 MVP에 최적
CrewAI	역할 기반 추상화가 비즈니스 로직과 직관적으로 매핑 — 비개발자와 소통 용이
AutoGen/AG2	대화 패턴 다양성 최고 — GroupChat, 동적 역할 전환, 합의 도출 워크플로
AutoGen/AG2	.NET 지원으로 Microsoft 스택 친화 — Microsoft Agent Framework로 엔터프라이즈 통합
AG2	MIT 라이선스 무료 — 커뮤니티 포크로 멀티 LLM 프로바이더 지원

단점 및 주의사항

세 프레임워크의 약점을 나란히 보면 선택 기준이 더 또렷해집니다.

프레임워크	단점	대응 방안
LangGraph	학습 곡선 세 프레임워크 중 가장 가파름	LangGraph Academy 무료 코스로 시작
LangGraph	단순 워크플로에서 과잉 설계 위험	선형 파이프라인이면 CrewAI 고려
CrewAI	토큰 오버헤드 약 18% 발생	`context` 연결을 꼭 필요한 것만 유지
CrewAI	세밀한 실행 흐름 제어 어려움	복잡한 조건 분기 필요 시 LangGraph 전환
AutoGen	토큰 비용 높음 (3 에이전트·8 라운드 조건에서 LangGraph 대비 5~6배 측정)	`max_round` 보수적 설정, 대화 패턴 최소화
AutoGen	프로젝트 분기(AG2/AutoGen 0.4/Agent Framework)로 방향성 혼재	AG2와 Microsoft Agent Framework 중 팀 스택에 맞춰 선택
AutoGen	상태 지속성이 기본적으로 인메모리에 한정	장기 실행 워크플로라면 외부 저장소 연동 필수

MCP(Model Context Protocol): Anthropic이 주도하는 LLM 툴 연결 표준. 외부 API, 데이터베이스, 파일 시스템 등을 표준화된 방식으로 에이전트에 연결할 수 있습니다. LangGraph는 MCP 툴을 그래프 노드로 취급해 현재 가장 깊은 통합을 제공합니다.

마치며

결국 세 프레임워크 중 "최고"는 없고, 여러분의 상황에 맞는 "적합한" 것만 있습니다. 빠른 프로토타이핑과 명확한 역할 기반 워크플로라면 CrewAI, 프로덕션 내구성과 규제 환경 대응이 필요하다면 LangGraph, 그룹 토론과 대화 중심 추론이 핵심이라면 AutoGen/AG2가 자연스러운 선택입니다.

지금 바로 시작해볼 수 있는 3단계:

프레임워크 설치 후 공식 예제 실행: pip install langgraph / pip install crewai / pip install ag2 중 하나를 선택해 각 공식 문서의 Quick Start를 따라가보시면 좋습니다. 실제로 돌려봐야 감이 옵니다.
작은 실제 문제에 적용: "웹에서 정보 수집 → 요약 → 슬라이드 초안 작성" 같은 간단한 3단계 워크플로를 선택한 프레임워크로 구현해보시면 좋습니다. 장난감 예제보다 실제 문제가 프레임워크의 한계를 훨씬 빠르게 드러내줍니다.
토큰 비용과 실행 시간을 꼭 측정해보세요: LangGraph라면 LangSmith(전용 추적 도구, 가장 정밀), CrewAI라면 verbose=True 로그(태스크 단위 토큰 확인 가능), AutoGen이라면 대화 기록 파싱으로 확인할 수 있습니다. 세 방식의 측정 정밀도가 다르다는 점은 감안해야 하지만, 어떤 방식이든 실제 비용을 눈으로 보고 나면 프레임워크 교체 결정이 훨씬 객관적으로 내려집니다. 이 수치를 확인하지 않고 선택을 유지하는 건 저라면 피하겠습니다.

다음 글: LangGraph로 Human-in-the-Loop 승인 워크플로 구축하기 — 금융·헬스케어 규제 환경에서의 실전 패턴

이 시리즈의 다음 글이 나오면 바로 받아볼 수 있도록 뉴스레터 구독을 해두시면 놓치지 않으실 수 있습니다.

참고 자료

LangGraph vs CrewAI vs AutoGen — 2026년 AI 에이전트 프레임워크, 실전에서 어떤 걸 선택해야 할까 | DEV BAK - 기술블로그

LangGraph vs CrewAI vs AutoGen — 2026년 AI 에이전트 프레임워크, 실전에서 어떤 걸 선택해야 할까

핵심 개념

멀티에이전트 프레임워크, 왜 필요한가?

오케스트레이션(Orchestration): 여러 에이전트나 태스크의 실행 순서, 조건 분기, 병렬 처리를 조율하는 것. 마치 오케스트라 지휘자처럼 전체 흐름을 관리합니다.

세 프레임워크는 이 문제를 완전히 다른 방식으로 접근합니다.

LangGraph — 그래프로 에이전트 흐름을 설계한다

python

import os
from langgraph.graph import StateGraph, END
from typing import TypedDict
 
class ResearchState(TypedDict):
    query: str
    search_results: list[str]
    analysis: str
    final_report: str
 
def search_node(state: ResearchState) -> ResearchState:
    results = web_search(state["query"])
    return {"search_results": results}
 
def analyze_node(state: ResearchState) -> ResearchState:
    analysis = llm_analyze(state["search_results"])
    return {"analysis": analysis}
 
def report_node(state: ResearchState) -> ResearchState:
    report = llm_generate_report(state["analysis"])
    return {"final_report": report}
 
def should_retry(state: ResearchState) -> str:
    # 분석이 불충분하면 재검색, 충분하면 report 노드로
    if len(state["analysis"]) < 100:
        return "search"
    return "report"
 
workflow = StateGraph(ResearchState)
workflow.add_node("search", search_node)
workflow.add_node("analyze", analyze_node)
workflow.add_node("report", report_node)
 
workflow.set_entry_point("search")
workflow.add_edge("search", "analyze")
# should_retry가 "search" 또는 "report" 문자열을 반환 → 해당 노드 이름으로 전환
workflow.add_conditional_edges(
    "analyze",
    should_retry,
    {"search": "search", "report": "report"}  # 반환값 → 노드 이름 매핑
)
workflow.add_edge("report", END)
 
app = workflow.compile(checkpointer=memory_saver)

체크포인팅(Checkpointing): 그래프 실행 중간 상태를 저장해두는 기능. 서버가 죽거나 오류가 나도 이전 지점부터 재시작할 수 있고, 특정 시점으로 "시간 여행"하며 디버깅도 가능합니다.

Human-in-the-Loop: 에이전트 실행 도중 사람이 개입해 검토·승인·수정을 할 수 있도록 일시정지하는 패턴. 금융·헬스케어처럼 자동 판단에 규제 제약이 있는 환경에서 필수입니다. LangGraph는 이를 공식 지원합니다.

CrewAI — 팀을 꾸리듯 에이전트를 조립한다

python

import os
from crewai import Agent, Task, Crew, Process
 
researcher = Agent(
    role="Senior Research Analyst",
    goal="Find accurate and up-to-date information on given topics",
    backstory="You are an expert researcher with 10 years of experience...",
    tools=[web_search_tool, scraping_tool],
    verbose=True
)
 
writer = Agent(
    role="Content Writer",
    goal="Write engaging technical blog posts",
    backstory="You are a skilled writer who transforms research into compelling content...",
    tools=[file_write_tool]
)
 
research_task = Task(
    description="Research the latest trends in {topic}",
    expected_output="A comprehensive summary with key findings",
    agent=researcher
)
 
writing_task = Task(
    description="Write a blog post based on the research",
    expected_output="A 1000-word blog post in markdown format",
    agent=writer,
    context=[research_task]  # 이전 태스크 결과를 자동으로 컨텍스트에 포함
)
 
crew = Crew(
    agents=[researcher, writer],
    tasks=[research_task, writing_task],
    process=Process.sequential
)
 
result = crew.kickoff(inputs={"topic": "멀티에이전트 프레임워크"})
print(result.raw)  # 최종 결과 출력

context 파라미터가 편의성의 핵심이면서 동시에 토큰 오버헤드의 원인이기도 한데, 이 점은 장단점 섹션에서 더 다루겠습니다.

AutoGen / AG2 — 대화로 문제를 푼다

python

import os
from autogen import AssistantAgent, UserProxyAgent, GroupChat, GroupChatManager
 
llm_config = {
    "config_list": [{
        "model": "gpt-4o",
        "api_key": os.getenv("OPENAI_API_KEY")
    }]
}
 
coder = AssistantAgent(
    name="Coder",
    system_message="You are a senior software engineer. Write clean, efficient code.",
    llm_config=llm_config
)
 
reviewer = AssistantAgent(
    name="CodeReviewer",
    system_message="You are a code reviewer. Find bugs and suggest improvements.",
    llm_config=llm_config
)
 
user_proxy = UserProxyAgent(
    name="UserProxy",
    human_input_mode="NEVER",
    # 주의: work_dir 설정 시 로컬 파일 시스템에 실제 파일이 생성됩니다
    code_execution_config={"work_dir": "coding"}
)
 
groupchat = GroupChat(
    agents=[user_proxy, coder, reviewer],
    messages=[],
    max_round=10
)
 
manager = GroupChatManager(groupchat=groupchat, llm_config=llm_config)
 
user_proxy.initiate_chat(
    manager,
    message="Python으로 퀵소트 알고리즘을 구현하고 코드 리뷰까지 완료해줘"
)

AG2: AutoGen에서 분기된 커뮤니티 포크. 원 개발자 그룹이 유지하며 스트리밍·이벤트 드리븐 아키텍처와 멀티 LLM 프로바이더(OpenAI, Anthropic, Gemini, Ollama 등)를 지원합니다. Microsoft의 방향성과 별개로 오픈소스 노선을 유지합니다.

실전 적용

예시 1: 금융 규제 환경의 신용 리스크 평가 시스템 (LangGraph)

python

import os
from langgraph.graph import StateGraph, END
from langgraph.checkpoint.redis import RedisSaver
from typing import TypedDict
 
class CreditRiskState(TypedDict):
    customer_id: str
    financial_data: dict
    risk_score: float
    risk_level: str  # "LOW", "MEDIUM", "HIGH"
    human_review_required: bool
    human_decision: str | None
    final_decision: str
 
def assess_risk(state: CreditRiskState) -> CreditRiskState:
    score = calculate_risk_score(state["financial_data"])
    level = "HIGH" if score > 0.7 else "MEDIUM" if score > 0.4 else "LOW"
    return {
        "risk_score": score,
        "risk_level": level,
        "human_review_required": level == "HIGH"
    }
 
def route_by_risk(state: CreditRiskState) -> str:
    if state["human_review_required"]:
        return "human_review"
    return "auto_decision"
 
def auto_decision(state: CreditRiskState) -> CreditRiskState:
    decision = "APPROVE" if state["risk_level"] == "LOW" else "REJECT"
    return {"final_decision": decision}
 
def await_human_review(state: CreditRiskState) -> CreditRiskState:
    # interrupt_before 설정으로 이 노드 직전에 실행이 멈추고 사람 입력을 기다림
    return {"final_decision": state.get("human_decision", "PENDING")}
 
memory = RedisSaver.from_conn_string("redis://localhost:6379")
 
workflow = StateGraph(CreditRiskState)
workflow.add_node("assess", assess_risk)
workflow.add_node("auto_decision", auto_decision)
workflow.add_node("human_review", await_human_review)
 
workflow.set_entry_point("assess")
workflow.add_conditional_edges(
    "assess",
    route_by_risk,
    {"human_review": "human_review", "auto_decision": "auto_decision"}
)
workflow.add_edge("auto_decision", END)
workflow.add_edge("human_review", END)
 
app = workflow.compile(checkpointer=memory, interrupt_before=["human_review"])

코드 포인트	설명
`RedisSaver`	Redis 기반 상태 지속성 — 서버 재시작 후에도 세션 복구 가능
`interrupt_before=["human_review"]`	이 노드 직전에 실행을 멈추고 사람 입력 대기
`add_conditional_edges`	리스크 레벨에 따른 분기 — 각 전환이 감사 로그에 남음
`CreditRiskState`	TypedDict 기반 상태 스키마 — Pydantic v2와 호환

예시 2: 영업 리드 데이터 정제 파이프라인 (CrewAI)

명확하게 역할이 구분된 비즈니스 워크플로에서 CrewAI의 생산성은 정말 탁월합니다. 역할만 잘 정의하면 복잡한 파이프라인도 빠르게 완성됩니다.

python

import os
from crewai import Agent, Task, Crew, Process
from crewai_tools import CSVSearchTool, WebsiteSearchTool
 
csv_tool = CSVSearchTool(csv="leads.csv")
web_tool = WebsiteSearchTool()
 
data_validator = Agent(
    role="Data Quality Specialist",
    goal="Validate and clean CRM lead data for accuracy and completeness",
    backstory="""You specialize in B2B sales data quality. 
    You know common data issues like duplicate entries, 
    missing fields, and inconsistent formatting.""",
    tools=[csv_tool],
    llm="gpt-4o"
)
 
enrichment_agent = Agent(
    role="Lead Intelligence Analyst",
    goal="Enrich lead profiles with current company information",
    backstory="""You research companies and contacts to add valuable 
    context to sales leads, including recent news and funding rounds.""",
    tools=[web_tool],
    llm="gpt-4o"
)
 
scoring_agent = Agent(
    role="Sales Prioritization Expert",
    # ICP fit: 이상적 고객 프로파일(Ideal Customer Profile) 부합도
    # buying signals: 구매 의향을 나타내는 행동 지표 (최근 채용, 자금 조달 등)
    goal="Score and prioritize leads based on ICP fit and buying signals",
    backstory="""You analyze enriched lead data and assign priority scores 
    based on ideal customer profile criteria and engagement signals.""",
    llm="gpt-4o"
)
 
validation_task = Task(
    description="Analyze leads.csv and identify data quality issues. Flag duplicates and missing required fields.",
    expected_output="JSON report with quality issues and cleaned dataset",
    agent=data_validator
)
 
enrichment_task = Task(
    # firmographic data: 기업 규모, 업종, 소재지 등 기업 특성 정보
    description="For each validated lead, research current company info and add firmographic data.",
    expected_output="Enriched lead dataset with company size, funding, recent news",
    agent=enrichment_agent,
    context=[validation_task]
)
 
scoring_task = Task(
    description="Score leads 1-100 based on ICP fit. Output prioritized list with reasoning.",
    expected_output="CSV with lead scores and priority tier (HOT/WARM/COLD)",
    agent=scoring_agent,
    context=[enrichment_task],
    output_file="prioritized_leads.csv"
)
 
crew = Crew(
    agents=[data_validator, enrichment_agent, scoring_agent],
    tasks=[validation_task, enrichment_task, scoring_task],
    process=Process.sequential,
    verbose=True
)
 
result = crew.kickoff()
print(result.raw)  # CrewOutput 객체의 .raw로 최종 텍스트 결과 접근

예시 3: 그룹 코드 리뷰 및 합의 도출 (AutoGen / AG2)

python

import os
from autogen import AssistantAgent, UserProxyAgent, GroupChat, GroupChatManager
 
llm_config = {
    "config_list": [{
        "model": "gpt-4o",
        "api_key": os.getenv("OPENAI_API_KEY")
    }]
}
 
security_reviewer = AssistantAgent(
    name="SecurityExpert",
    system_message="""You are a security expert. Review code for:
    - SQL injection, XSS, authentication vulnerabilities
    - Insecure dependencies
    Always start your response with 'SECURITY REVIEW:'""",
    llm_config=llm_config
)
 
performance_reviewer = AssistantAgent(
    name="PerformanceExpert",
    system_message="""You are a performance optimization expert. Review for:
    - N+1 queries, memory leaks, inefficient algorithms
    - Caching opportunities
    Always start with 'PERFORMANCE REVIEW:'""",
    llm_config=llm_config
)
 
architect = AssistantAgent(
    name="SoftwareArchitect",
    system_message="""You synthesize all reviews and provide final recommendations.
    Prioritize issues by severity and provide actionable improvements.
    Always start with 'ARCHITECTURE SUMMARY:'""",
    llm_config=llm_config
)
 
user_proxy = UserProxyAgent(
    name="Developer",
    human_input_mode="TERMINATE",
    code_execution_config=False,
    is_termination_msg=lambda x: "LGTM" in x.get("content", "")
)
 
groupchat = GroupChat(
    agents=[user_proxy, security_reviewer, performance_reviewer, architect],
    messages=[],
    max_round=8,
    speaker_selection_method="round_robin"
)
 
manager = GroupChatManager(groupchat=groupchat, llm_config=llm_config)
 
code_to_review = """
def get_user(user_id):
    query = f"SELECT * FROM users WHERE id = {user_id}"  # 위험한 코드
    return db.execute(query)
"""
 
user_proxy.initiate_chat(
    manager,
    message=f"다음 코드를 리뷰해주세요:\n```python\n{code_to_review}\n```"
)

장단점 분석

실무에서 가장 흔한 실수

CrewAI로 시작해서 LangGraph로 마이그레이션하는 "두 번 짜기": 빠른 프로토타이핑에 CrewAI를 선택했다가, 운영 환경에서 상태 관리와 감사 추적이 필요해지면서 결국 전면 재작성하는 경우가 많습니다. 처음부터 규제 환경이나 복잡한 분기가 예상된다면 LangGraph로 시작하는 게 낫습니다.
AutoGen 토큰 비용 과소 추정: "대화로 풀면 되겠지"라는 생각으로 선택했다가 월말 청구서를 보고 놀라는 경우가 있습니다. 에이전트 수 × 라운드 수 × 평균 메시지 길이로 미리 비용 시뮬레이션을 해보시면 좋습니다.
AutoGen 포크 선택 없이 시작: "AutoGen 써야지"라고 결정하고 코드를 짜기 시작했다가 AG2와 AutoGen 0.4의 API가 달라 혼란이 생기는 경우입니다. pip install ag2와 pip install autogen-agentchat은 별개의 패키지이므로, 처음에 방향을 명확히 잡는 게 좋습니다.

장점

프레임워크	핵심 강점
LangGraph	프로덕션 내구성 최고 수준 — 체크포인팅, 시간 여행 디버깅, Human-in-the-Loop 공식 지원
LangGraph	LangSmith와의 긴밀한 관측성 통합 — 비용·레이턴시·토큰 사용량 추적 가능
LangGraph	MCP(Model Context Protocol) 통합 깊이 가장 우수 — MCP 툴을 그래프 노드로 취급, 풀 스트리밍 지원
CrewAI	학습 곡선 가장 완만 — 20줄로 동작하는 멀티에이전트 파이프라인
CrewAI	Time-to-Production LangGraph 대비 약 40% 빠름 — 스타트업과 MVP에 최적
CrewAI	역할 기반 추상화가 비즈니스 로직과 직관적으로 매핑 — 비개발자와 소통 용이
AutoGen/AG2	대화 패턴 다양성 최고 — GroupChat, 동적 역할 전환, 합의 도출 워크플로
AutoGen/AG2	.NET 지원으로 Microsoft 스택 친화 — Microsoft Agent Framework로 엔터프라이즈 통합
AG2	MIT 라이선스 무료 — 커뮤니티 포크로 멀티 LLM 프로바이더 지원

단점 및 주의사항

세 프레임워크의 약점을 나란히 보면 선택 기준이 더 또렷해집니다.

프레임워크	단점	대응 방안
LangGraph	학습 곡선 세 프레임워크 중 가장 가파름	LangGraph Academy 무료 코스로 시작
LangGraph	단순 워크플로에서 과잉 설계 위험	선형 파이프라인이면 CrewAI 고려
CrewAI	토큰 오버헤드 약 18% 발생	`context` 연결을 꼭 필요한 것만 유지
CrewAI	세밀한 실행 흐름 제어 어려움	복잡한 조건 분기 필요 시 LangGraph 전환
AutoGen	토큰 비용 높음 (3 에이전트·8 라운드 조건에서 LangGraph 대비 5~6배 측정)	`max_round` 보수적 설정, 대화 패턴 최소화
AutoGen	프로젝트 분기(AG2/AutoGen 0.4/Agent Framework)로 방향성 혼재	AG2와 Microsoft Agent Framework 중 팀 스택에 맞춰 선택
AutoGen	상태 지속성이 기본적으로 인메모리에 한정	장기 실행 워크플로라면 외부 저장소 연동 필수

MCP(Model Context Protocol): Anthropic이 주도하는 LLM 툴 연결 표준. 외부 API, 데이터베이스, 파일 시스템 등을 표준화된 방식으로 에이전트에 연결할 수 있습니다. LangGraph는 MCP 툴을 그래프 노드로 취급해 현재 가장 깊은 통합을 제공합니다.

마치며

지금 바로 시작해볼 수 있는 3단계:

프레임워크 설치 후 공식 예제 실행: pip install langgraph / pip install crewai / pip install ag2 중 하나를 선택해 각 공식 문서의 Quick Start를 따라가보시면 좋습니다. 실제로 돌려봐야 감이 옵니다.
작은 실제 문제에 적용: "웹에서 정보 수집 → 요약 → 슬라이드 초안 작성" 같은 간단한 3단계 워크플로를 선택한 프레임워크로 구현해보시면 좋습니다. 장난감 예제보다 실제 문제가 프레임워크의 한계를 훨씬 빠르게 드러내줍니다.
토큰 비용과 실행 시간을 꼭 측정해보세요: LangGraph라면 LangSmith(전용 추적 도구, 가장 정밀), CrewAI라면 verbose=True 로그(태스크 단위 토큰 확인 가능), AutoGen이라면 대화 기록 파싱으로 확인할 수 있습니다. 세 방식의 측정 정밀도가 다르다는 점은 감안해야 하지만, 어떤 방식이든 실제 비용을 눈으로 보고 나면 프레임워크 교체 결정이 훨씬 객관적으로 내려집니다. 이 수치를 확인하지 않고 선택을 유지하는 건 저라면 피하겠습니다.

다음 글: LangGraph로 Human-in-the-Loop 승인 워크플로 구축하기 — 금융·헬스케어 규제 환경에서의 실전 패턴

이 시리즈의 다음 글이 나오면 바로 받아볼 수 있도록 뉴스레터 구독을 해두시면 놓치지 않으실 수 있습니다.

핵심 개념

멀티에이전트 프레임워크, 왜 필요한가?

LangGraph — 그래프로 에이전트 흐름을 설계한다

CrewAI — 팀을 꾸리듯 에이전트를 조립한다

AutoGen / AG2 — 대화로 문제를 푼다

실전 적용

예시 1: 금융 규제 환경의 신용 리스크 평가 시스템 (LangGraph)

예시 2: 영업 리드 데이터 정제 파이프라인 (CrewAI)

예시 3: 그룹 코드 리뷰 및 합의 도출 (AutoGen / AG2)

장단점 분석

실무에서 가장 흔한 실수

장점

단점 및 주의사항

마치며

참고 자료

핵심 개념

멀티에이전트 프레임워크, 왜 필요한가?

LangGraph — 그래프로 에이전트 흐름을 설계한다

CrewAI — 팀을 꾸리듯 에이전트를 조립한다

AutoGen / AG2 — 대화로 문제를 푼다

실전 적용

예시 1: 금융 규제 환경의 신용 리스크 평가 시스템 (LangGraph)

예시 2: 영업 리드 데이터 정제 파이프라인 (CrewAI)

예시 3: 그룹 코드 리뷰 및 합의 도출 (AutoGen / AG2)

장단점 분석

실무에서 가장 흔한 실수

장점

단점 및 주의사항

마치며

참고 자료

추천 포스트

멀티 에이전트 AI 코드 리뷰 오케스트레이션 아키텍처 패턴 가이드

GitHub 커밋의 4%를 바꾼 2026 AI 코딩 스택 — Claude Code · Cursor · Codex 프론트엔드 실전 조합 가이드

CLAUDE.md 완전 가이드 — AI 코딩 도구의 팀 컨벤션을 한 파일로 통일하는 법

AI 에이전트로 인프라 비용 10배 줄이기 — Meta Capacity Efficiency 패턴으로 배우는 멀티에이전트 성능 최적화

멀티 레플리카 LLM의 캐시 딜레마 — LMCache + llm-d로 클러스터 전체에 KV 캐시 깔기

vLLM + Modal Volume으로 콜드 스타트를 1초 이하로 줄이는 가중치 캐싱 + GPU 스냅샷 구현 레시피