TradingAgents — 멀티 에이전트 LLM 헤지펀드 시뮬레이션
“TradingAgents proposes a multi-agent LLM-powered framework that mirrors the structure and dynamics of real-world trading firms.”
애널리스트 4명, 리서처 2명, 트레이더 1명, 리스크 매니저, 펀드 매니저. 전부 AI. 전부 오픈소스.
TradingAgents. GitHub 스타 33k+개 (2026-03-27 기준). 포크 6,800개.
한 명의 AI가 주식을 사고파는 게 아니다. AI들이 실제 트레이딩 회사처럼 역할을 나누고, 서로 토론하고, 반박하고, 위험을 평가한 다음에야 비로소 한 건의 매매를 결정한다. 헤지펀드가 2% 관리 수수료 + 20% 성과 수수료를 받고 하는 바로 그 워크플로우다. 이건 무료다.
개요
TradingAgents는 Tauric Research(UCLA 연구진 참여)가 개발한 오픈소스 멀티 에이전트 트레이딩 프레임워크로, 실제 헤지펀드의 조직 구조를 LLM 에이전트로 통째로 시뮬레이션한다. 7개의 전문화된 에이전트가 각자 역할을 맡고 서로 정보를 공유·토론하며 매매 결정을 내린다.
- GitHub: https://github.com/TauricResearch/TradingAgents
- Stars: 33k+ (2026-03-27 기준)
- 언어: Python
- 라이선스: Apache 2.0
- 논문: arXiv
- 최신 버전: v0.2.2 (2026-03) - GPT-5.4/Gemini 3.1/Claude 4.6 지원, Responses API, Effort Control
구조
실제 트레이딩 회사의 조직도를 그대로 복제했다. 5개 팀, 7개 역할.
1단계: 애널리스트 팀 (4명 동시 분석)
| 역할 | 담당 |
|---|---|
| 기업 재무 애널리스트 | 실적, 밸류에이션, 재무제표 평가 |
| 뉴스 애널리스트 | 글로벌 뉴스와 거시경제 지표 모니터링 |
| 감성 애널리스트 | 소셜 미디어, Reddit, X 여론 감성 점수 계량화 |
| 기술적 애널리스트 | MACD, RSI 기술 지표 계산 및 패턴 분석 |
네 명이 동시에 돌아간다. 병렬 실행.
2단계: 리서처 팀 (불 vs 베어 토론)
핵심 단계다.
- 강세 리서처(Bull): “사야 하는 이유” — 성장 가능성, 유리한 시장 조건, 긍정적 신호
- 약세 리서처(Bear): “사면 안 되는 이유” — 리스크, 부정적 신호, 하방 시나리오
둘이 구조화된 토론을 한다. 한쪽이 이기는 게 아니라, 양측 논거를 균형 잡힌 시각으로 종합하는 게 목적이다.
3단계: 트레이더
애널리스트 4명의 보고서와 리서처 2명의 토론 결과를 전부 종합해서 매매 결정을 내린다. 매수/매도/관망, 그리고 규모.
4단계: 리스크 관리팀
트레이더의 결정을 받아서 시장 변동성, 유동성, 기타 리스크를 평가한다. 위험하다고 판단하면 거부권을 행사할 수 있다.
5단계: 펀드 매니저
리스크 관리팀의 평가 보고서를 보고 최종 승인/거부. 승인되면 시뮬레이션 거래소에서 주문 실행.
매매 한 건에 LLM 호출 11번, 도구 호출 20번 이상이다.
소통 방식: Structured Protocol
대부분의 멀티에이전트 시스템은 자유 대화(unstructured dialogue)로 소통한다. TradingAgents는 다르다.
- 애널리스트 ↔ 트레이더: 구조화된 보고서로 소통. 정보 손실 최소화.
- 자연어 대화: 토론이 필요한 곳에만 — 리서처 팀의 불/베어 토론, 리스크 관리팀의 위험 평가 논의.
구조화된 출력 + 자연어 대화의 하이브리드. 논문에서 “structured protocol”이라 부른다.
실험 결과
논문에서 3개월간 벤치마크를 돌렸다 (LLM·도구 사용이 집약적이라 3개월이 한계).
- 누적 수익률, 샤프 비율, 최대 낙폭(MDD) — 세 지표 모두에서 기존 전통 전략 대비 우위
- 샤프 비율이 기대 범위를 초과 (2 이상이면 매우 좋고, 3 이상이면 탁월) — 다만 테스트 기간 동안 하락 장세가 거의 없었기 때문일 수 있다고 논문이 직접 인정함
기술 스택
LangGraph로 구축. 모듈성과 유연성 확보.
지원 LLM (v0.2.2, 2026년 3월):
| 용도 | 모델 |
|---|---|
| deep_think_llm (복잡한 추론) | OpenAI GPT-5.4, Anthropic Claude 4.6, Google Gemini 3.1, xAI Grok 4.x |
| quick_think_llm (빠른 작업) | 위 프로바이더의 경량 모델, Ollama 로컬 모델 |
v0.2.2 새로운 기능 (2026-03)
- ✅ 최신 모델 지원: GPT-5.4, Gemini 3.1, Claude 4.6 완전 호환
- 📊 5단계 등급 척도: 의사결신 등급 시스템 (1-5)
- ⚡ OpenAI Responses API: 최신 API 통합
- 🎛️ Anthropic Effort Control: Claude 모델의 노력 수준 제어
- 🔧 크로스 플랫폼 안정성: Windows/macOS/Linux 호환성 개선
GPU 불필요. API 크레딧만으로 동작한다.
from tradingagents.graph.trading_graph import TradingAgentsGraph
ta = TradingAgentsGraph(debug=True)
_, decision = ta.propagate("NVDA", "2026-01-15")
print(decision)코드 세 줄이면 NVDA에 대한 매매 판단을 받을 수 있다.
주의사항
“트레이딩 성과는 선택한 LLM, 모델 온도, 트레이딩 기간, 데이터 품질, 기타 비결정적 요소에 따라 달라질 수 있습니다. 금융, 투자, 또는 트레이딩 조언이 아닙니다.” — 논문 원문
- 3개월 벤치마크는 짧다. 2022년 하락장, 2020년 3월 급락 같은 극단 상황은 미검증
- 연간 30% 숫자는 테스트 기간 시장 상황에 크게 의존
- 매매 한 건에 LLM 호출 11회 + 도구 호출 20회 이상 → API 비용 주의 (deep_think에 Opus 4.6 / GPT-5.4 사용 시 하루 수십 달러 가능)
진짜 가치
수익률이 아니다. “멀티에이전트 시스템으로 복잡한 의사결정을 분해하는 아키텍처” 가 핵심이다.
트레이딩이라는 도메인을 골랐지만, 같은 구조를 의료 진단, 법률 분석, 컨설팅에 적용할 수 있다.
불/베어 토론 구조는 Agent Teams의 실전 사례다. 같은 데이터를 보고 서로 반대 입장에서 논쟁하게 만들면, 편향이 줄고 의사결정 품질이 올라간다는 걸 35,000+ 스타로 증명했다.
GitHub 컨트리뷰터 목록에 claude가 있다. Claude Code로 개발한 것이다.
관련 링크
- GitHub: https://github.com/TauricResearch/TradingAgents
- 논문: https://arxiv.org/abs/2412.20138
- Discord 커뮤니티: https://discord.com/invite/hk9PGKShPK
- Twitter: https://x.com/TauricResearch
- WeChat: 저장소 내 assets/wechat.png 참고
참고 가이드
- multi-agent-trading-deployment-guide - 24시간 자동 매매 멀티 에이전트 시스템 구축 가이드 (VPS 배포, 설정, 트러블슈팅)
- openclaw-trade - OpenClaw Trade 프로젝트와 비교 참고
기술 스택
| 분류 | 기술 |
|---|---|
| 오케스트레이션 | LangGraph (모듈식 DAG 워크플로우) |
| 프롬프팅 패러다임 | ReAct (Reason + Act) |
| 지원 LLM | OpenAI, Anthropic, Google, xAI, Ollama |
| 데이터 소스 | Finnhub (주가·뉴스), Yahoo Finance |
| 백엔드 언어 | Python 3.11+ |
지원 LLM 상세 (v0.2.1, 2026년 3월)
# deep_think_llm (복잡한 추론) — 기본값
"gpt-4o", "o1-preview", "claude-3-5-sonnet", "gemini-1.5-pro"
# 또는 OpenAI GPT-5.4, Anthropic Claude 4.6, Google Gemini 3.1, xAI Grok 4.x
# quick_think_llm (빠른 작업) — 기본값
"gpt-4o-mini", "claude-3-haiku", "gemini-1.5-flash"
# 또는 Ollama 로컬 모델GPU 불필요. API 크레딧만으로 동작한다.
워크플로우
시장 데이터
↓
[Fundamentals / Sentiment / News / Technical Analyst]
↓ 병렬 분석 리포트
[Bull Researcher ⟺ Bear Researcher] (토론)
↓ 통합 투자 논리
[Trader] → 매수/매도/홀드 결정
↓
[Risk Manager] → 포지션 크기·리스크 필터 적용
↓
최종 매매 지시
성능 (백테스트)
AAPL 2024년 1분기(변동성 높은 구간) 기준:
| 전략 | 누적 수익률 |
|---|---|
| Buy & Hold | 기준선 |
| MACD 기반 전략 | 기준선 대비 하회 |
| TradingAgents | +26.62% |
기존 단일 에이전트나 전통 알고리즘 대비 일관된 우위를 보임.
논문에서 3개월간 벤치마크를 돌렸다. 누적 수익률, 샤프 비율, 최대 낙폭(MDD) — 세 지표 모두에서 기존 전통 전략 대비 우위. 샤프 비율이 기대 범위를 초과 (2 이상이면 매우 좋고, 3 이상이면 탁월) — 다만 테스트 기간 동안 하락 장세가 거의 없었기 때문일 수 있다고 논문이 직접 인정함.
빠른 시작
# 설치
pip install tradingagents
# 또는 소스에서
git clone https://github.com/TauricResearch/TradingAgents.git
cd TradingAgents
pip install -e .
# API 키 설정
export OPENAI_API_KEY="..."
export FINNHUB_API_KEY="..." # 무료 플랜 사용 가능
# 실행 예시
python examples/run_trading.py --ticker AAPL --date 2024-01-15from tradingagents.graph.trading_graph import TradingAgentsGraph
ta = TradingAgentsGraph(debug=True)
_, decision = ta.propagate("NVDA", "2026-01-15")
print(decision)코드 세 줄이면 NVDA에 대한 매매 판단을 받을 수 있다.
주요 특징
투명한 의사결정
- 모든 매매에 대해 자연어 근거를 제공 (블랙박스 모델과 대조)
- 각 에이전트의 분석 리포트가 체인으로 추적 가능
확장성
- 새로운 에이전트 추가 및 워크플로우 커스터마이징이 LangGraph 기반으로 용이
- 다양한 LLM 백엔드 교체 가능 (Ollama로 로컬 실행도 지원)
실전 연동 가능성
- 커뮤니티 포크인 AlpacaTradingAgent에서 Alpaca API 연동, 암호화폐 확장 지원
인사이트
왜 주목할 만한가
- 헤지펀드 조직 구조의 완전 재현: 단순 신호 생성이 아니라 실제 운용사의 분업·토론·리스크 관리 프로세스를 에이전트로 구현
- 찬반 토론 메커니즘: Bull/Bear Researcher의 토론이 편향된 의사결정을 줄이는 구조적 안전장치
- LangGraph의 장점 극대화: 각 에이전트가 독립 노드로 분리되어 교체·확장이 쉬움
- UCLA 연구 기반: 학술 논문 동반 → 재현 가능성·신용도 높음
- 33k+ stars: 공개 직후 빠르게 주목받은 커뮤니티 검증 프레임워크
진짜 가치
수익률이 아니다. “멀티에이전트 시스템으로 복잡한 의사결정을 분해하는 아키텍처” 가 핵심이다.
트레이딩이라는 도메인을 골랐지만, 같은 구조를 의료 진단, 법률 분석, 컨설팅에 적용할 수 있다.
불/베어 토론 구조는 Agent Teams의 실전 사례다. 같은 데이터를 보고 서로 반대 입장에서 논쟁하게 만들면, 편향이 줄고 의사결정 품질이 올라간다는 걸 33,000+ 스타로 증명했다.
GitHub 컨트리뷰터 목록에 claude가 있다. Claude Code로 개발한 것이다.
한계 및 주의점
“트레이딩 성과는 선택한 LLM, 모델 온도, 트레이딩 기간, 데이터 품질, 기타 비결정적 요소에 따라 달라질 수 있습니다. 금융, 투자, 또는 트레이딩 조언이 아닙니다.” — 논문 원문
- 실거래 리스크: 백테스트 성능이 실전 수익을 보장하지 않음
- 3개월 벤치마크는 짧다. 2022년 하락장, 2020년 3월 급락 같은 극단 상황은 미검증
- API 비용: 7개 에이전트가 동시에 LLM 호출 → 분석당 비용 높을 수 있음. 매매 한 건에 LLM 호출 11회 + 도구 호출 20회 이상 → API 비용 주의 (deep_think에 Opus 4.6 / GPT-5.4 사용 시 하루 수십 달러 가능)
- Finnhub 의존성: 실시간 데이터는 Finnhub 무료 플랜 제한에 걸릴 수 있음
- 주식 중심: 기본 프레임워크는 미국 주식 위주, 암호화폐·해외 주식은 커스터마이징 필요
관련 개념 연결
- LangGraph — 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
- ReAct Prompting — Reason + Act 기반 에이전트 의사결정 패러다임
- 2026-03-22-auto-research-trading — AI 자율 트레이딩 전략 자동 연구 프레임워크
저장소 통계 (2026-03-27)
| 항목 | 값 |
|---|---|
| Stars | 33k+ |
| 포크 | 6,800+ |
| 언어 | Python |
| 라이선스 | Apache 2.0 |
| 연구기관 | Tauric Research (UCLA 참여) |
| 논문 | arXiv:2412.20138 |
| 최신 버전 | v0.2.2 (2026-03) |
| 상태 | 활발히 개발 중 |
버전 히스토리
| 날짜 | 버전 | 주요 변경사항 |
|---|---|---|
| 2026-03 | v0.2.2 | GPT-5.4/Gemini 3.1/Claude 4.6 지원, 5단계 등급, Responses API, Effort Control, 크로스 플랫폼 안정성 |
| 2026-02 | v0.2.0 | 멀티 프로바이더 LLM 지원 (GPT-5.x, Gemini 3.x, Claude 4.x, Grok 4.x), 시스템 아키텍처 개선 |
| 2026-01 | v0.1.x | 초기 릴리즈, Trading-R1 논문 발표 |
연결된 노트
- 2026-03-29-memento-skills — 스킬 라이브러리 기반 자가 진화, 트레이딩 에이전트에 적용 가능
- 2026-03-29-dream-cycle — 야간 자기 개선 루프를 트레이딩 에이전트에 적용하면 매일 전략 개선 가능
- 2026-03-29-agent-eval-checklist — 트레이딩 에이전트의 평가 프레임워크 설계에 참고