AutoResearchClaw - 완전 자율 연구 파이프라인

완전 자율적이고 자가 진화하는 연구 파이프라인 — 아이디어를 채팅하면 논문을 받으세요. 🦞

개요

AutoResearchClaw는 단일 연구 아이디어를 회의 논문으로 만드는 완전 자율 23단계 연구 파이프라인입니다. 사람의 개입 없이 실행됩니다.

GitHub: https://github.com/aiming-lab/AutoResearchClaw 라이선스: MIT

주요 특징

  • 🎯 완전 자율적 — 단일 연구 아이디어 → 회의 논문
  • 🌍 크로스 플랫폼 — Claude Code, Codex CLI, Copilot CLI, Gemini CLI, Kimi CLI 등
  • 💬 메시징 플랫폼 — Discord, Telegram, Lark, WeChat
  • 🧬 자가 학습 — MetaClaw와 통합하여 연구 실패로부터 학습
  • 📚 실제 문헌 — OpenAlex, Semantic Scholar, arXiv에서 실제 논문 수집
  • 🧪 하드웨어 인식 샌드박스 — GPU/MPS/CPU 자동 감지
  • 🛡️ Anti-fabrication — 허위 데이터 감지 및 제거

성과

  • 8개 논문 — 8개 도메인 (수학, 통계, 생물, 컴퓨팅, NLP, 강화학습, 비전, 견고성)
  • 0개 인간 개입 — 완전 자율적 생성

빠른 시작

# 1. 클론 & 설치
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .
 
# 2. 설정 (대화형 — OpenCode beast mode, Docker/LaTeX 확인)
researchclaw setup
 
# 3. 설정
researchclaw init  # LLM 제공자 선택, config.arc.yaml 생성
 
# 4. 실행
export OPENAI_API_KEY="sk-..."
researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

출력 → artifacts/rc-YYYYMMDD-HHMMSS-<hash>/deliverables/ — 컴파일 준비된 LaTeX, BibTeX, 실험 코드, 차트

출력물

파일설명
paper_draft.md전체 학술 논문 (Introduction, Related Work, Method, Experiments, Results, Conclusion)
paper.tex회의 준비 LaTeX (NeurIPS/ICLR/ICML 템플릿)
references.bibOpenAlex, Semantic Scholar, arXiv에서 실제 BibTeX 참고문헌 — 인라인 인용과 일치하도록 자동 정리
verification_report.json4계층 인용 무결성 + 관련성 검증 (arXiv, CrossRef, DataCite, LLM)
experiment runs/생성된 코드 + 샌드박스 결과 + 구조화된 JSON 메트릭
charts/오차 막대와 신뢰 구간이 있는 자동 생성 조건 비교 차트
reviews.md방법론-증거 일관성 검사가 있는 다중 에이전트 동료 심사
evolution/각 실행에서 추출된 자가 학습 교훈
deliverables/모든 최종 출력물이 한 폴더에 — Overleaf 컴파일 준비

파이프라인 구조

23단계 연구 파이프라인

Phase A: Research Scoping

  1. TOPIC_INIT — 주제 초기화
  2. PROBLEM_DECOMPOSE — 문제 분해

Phase B: Literature Discovery

  1. SEARCH_STRATEGY — 검색 전략
  2. LITERATURE_COLLECT — 실제 API로 문헌 수집
  3. LITERATURE_SCREEN [gate] — 문헌 스크리닝

Phase C: Knowledge Synthesis

  1. KNOWLEDGE_EXTRACT — 지식 추출
  2. SYNTHESIS — 종합
  3. HYPOTHESIS_GEN — 가설 생성 (다중 에이전트 디베이트)

Phase D: Experiment Design

  1. EXPERIMENT_DESIGN [gate] — 실험 설계
  2. CODE_GENERATION — 코드 생성
  3. RESOURCE_PLANNING — 자원 계획

Phase E: Experiment Execution

  1. EXPERIMENT_RUN — 실험 실행
  2. ITERATIVE_REFINE — 반복적 개선 ← 자가 치유

Phase F: Analysis & Decision

  1. RESULT_ANALYSIS — 결과 분석 (다중 에이전트)
  2. RESEARCH_DECISION — 연구 결정 ← PIVOT/REFINE

Phase G: Paper Writing

  1. PAPER_OUTLINE — 논문 개요
  2. PAPER_DRAFT — 논문 초안
  3. PEER_REVIEW — 동료 심사 (증거 확인)
  4. PAPER_REVISION — 논문 수정

Phase H: Finalization

  1. QUALITY_GATE [gate] — 품질 게이트
  2. KNOWLEDGE_ARCHIVE — 지식 아카이빙
  3. EXPORT_PUBLISH — 내보내기/게시 ← LaTeX
  4. CITATION_VERIFY — 인용 검증 ← 관련성 확인

결정 루프

  • Stage 15은 자율적으로 결정: PROCEED, REFINE (파라미터 조정), 또는 PIVOT (새로운 방향)
  • 아티팩트는 자동 버전 관리됨

주요 기능

🔄 PIVOT / REFINE 루프

Stage 15에서 실험 실패 시 REFINE (→ Stage 13) 또는 PIVOT (→ Stage 8)로 자율적 결정

🤖 다중 에이전트 디베이트

가설 생성, 결과 분석, 동료 심사는 구조화된 다중 관점 디베이트 사용

🧬 자가 학습

각 실행에서 추출된 교훈 (결정 근거, 런타임 경고, 메트릭 이상)을 30일 시간 감쇠로 저장

📚 지식 베이스

모든 실행이 6개 카테고리(결정, 실험, 발견, 문헌, 질문, 심사)로 구조화된 KB 구축

🛡️ Sentinel 와치독

배경 품질 모니터: NaN/Inf 감지, 논문-증거 일관성, 인용 관련성 점수, anti-fabrication 가드

OpenClaw 통합

AutoResearchClaw은 OpenClaw 호환 서비스입니다.

자동 실행

이미 OpenClaw를 AI 어시스턴트로 사용하는 경우:

1️⃣ OpenClaw에 GitHub 저장소 URL 공유 2️⃣ OpenClaw가 RESEARCHCLAW_AGENTS.md를 자동 읽음 → 파이프라인 이해 3️⃣ “Research [your topic]” 말하기 4️⃣ 완료 — OpenClaw가 클론, 설치, 구성, 실행, 결과 반환

브릿지 어댑터

# config.arc.yaml
openclaw_bridge:
  use_cron: true          # ⏰ 예약된 연구 실행
  use_message: true        # 💬 진행 알림 (Discord/Slack/Telegram)
  use_memory: true         # 🧠 세션 간 지식 지속성
  use_sessions_spawn: true # 🔀 병렬 하위 세션 스폰
  use_web_fetch: true      # 🌐 문헌 리뷰 중 실시간 웹 검색
  use_browser: false      # 🖥️ 브라우저 기반 논문 수집

ACP 호환 코딩 에이전트

AutoResearchClaw은 모든 ACP 호환 코딩 에이전트를 LLM 백엔드로 사용할 수 있습니다:

에이전트명령어제공자
Claude CodeclaudeAnthropic
Codex CLIcodexOpenAI
Copilot CLIghGitHub
Gemini CLIgeminiGoogle
OpenCodeopencodeSST
Kimi CLIkimiMoonshot
# config.yaml — ACP 예시
llm:
  provider: "acp"
  acp:
    agent: "claude"  # ACP 호환 에이전트 CLI 명령
    cwd: "."         # 에이전트 작업 디렉토리

MetaClaw 통합

AutoResearchClaw + MetaClaw = 모든 실행에서 학습하는 파이프라인

MetaClaw는 연구 실행 간 지식 전송을 AutoResearchClaw에 추가합니다. 활성화하면 파이프라인이 실패와 경고로부터 자동으로 교훈을 캡처하고, 재사용 가능한 스킬로 변환하고, 후속 실행의 모든 23개 파이프라인 스테이지에 주입합니다.

# config.arc.yaml
metaclaw_bridge:
  enabled: true
  proxy_url: "http://localhost:30000"  # MetaClaw 프록시 (선택)
  skills_dir: "~/.metaclaw/skills"    # 스킬 저장 위치
  lesson_to_skill:
    enabled: true
    min_severity: "warning"  # 경고 + 오류 변환
    max_skills_per_run: 3

성능 향상 (A/B 테스트)

메트릭기준MetaClaw 사용개선
스테이지 재시도율10.5%7.9%-24.8%
Refine 사이클 수2.01.2-40.0%
파이프라인 스테이지 완료18/1919/19+5.3%
전체 견고성 점수 (합성)0.7140.845+18.3%

구성 참조

최소 필수 구성

project:
  name: "my-research"
 
research:
  topic: "Your research topic here"
 
llm:
  base_url: "https://api.openai.com/v1"
  api_key_env: "OPENAI_API_KEY"
  primary_model: "gpt-4o"
  fallback_models: ["gpt-4o-mini"]
 
experiment:
  mode: "sandbox"
  sandbox:
    python_path: ".venv/bin/python"

기능 설명

단계설명
A: ScopingLLM이 주제를 구조화된 문제 트리로 분해
B: Literature다중 소스 검색 (OpenAlex → Semantic Scholar → arXiv)으로 실제 논문 수집
C: Synthesis발견 클러스터링, 연구 갭 식별, 다중 에이전트 디베이트로 테스트 가능 가설 생성
D: Design실험 계획 설계, 하드웨어 인식 가능 실행 Python 생성, 자원 필요 추정
E: Execution샌드박스에서 실험 실행, NaN/Inf 및 런타임 버그 감지, 타겟팅된 LLM 수리로 자가 치유
F: Analysis결과 다중 에이전트 분석; 자율적 PROCEED / REFINE / PIVOT 결정과 근거
G: Writing개요 → 섹션별 초안 (5,000-6,500 단어) → 동료 심사 (방법론-증거 일관성) → 길이 가드로 수정
H: Finalization품질 게이트, 지식 아카이빙, 회의 템플릿으로 LaTeX 내보내기, 인용 무결성 + 관련성 검증

주요 기능 상세

📚 다중 소스 문헌

OpenAlex, Semantic Scholar, arXiv에서 실제 논문 — 쿼리 확장, 중복 제거, 우아한 저하와 함께 회로 브레이커

🔍 4계층 인용 검증

arXiv ID 확인 → CrossRef/DataCite DOI → Semantic Scholar 제목 매칭 → LLM 관련성 점수. 허위 참고문헌 자동 제거.

🖥️ 하드웨어 인식 실행

GPU (NVIDIA CUDA / Apple MPS / CPU 전용) 자동 감지하고 코드 생성, 임포트, 실험 스케일을 그에 맞게 조정

🦾 OpenCode Beast Mode

복잡한 실험은 OpenCode로 자동 라우팅 — 커스텀 아키텍처, 훈련 루프, ablation 연구가 있는 다중 파일 프로젝트 생성. researchclaw setup으로 설치.

🧪 샌드박스 실험

AST 유효성 검사된 코드, 불변 하니스, NaN/Inf 빠른 실패, 자가 치유 수리, 반복적 개선 (최대 10 라운드), 부분 결과 캡처

📝 회의 등급 작성

NeurIPS/ICML/ICLR 템플릿, 섹션별 초안 (5,000-6,500 단어), anti-fabrication 가드, 수정 길이 가드, anti-disclaimer 강제

📐 템플릿 스위칭

neurips_2025, iclr_2026, icml_2026 — Markdown → LaTeX로 수학, 테이블, 그림, 교차 참조, \cite{} 변환

🛡️ Anti-Fabrication

VerifiedRegistry가 논문에서 실제 실험 데이터를 강제합니다. 작성 전 실패한 실험을 자동 진단하고 수리합니다. 확인되지 않은 숫자는 위생됩니다.

🚦 품질 게이트

3개 사람-인-루프 게이트 (Stages 5, 9, 20)와 롤백. --auto-approve로 건너뜀.

최신 업데이트

v0.3.2 (2026-03-22)

  • 크로스 플랫폼 지원 — 모든 ACP 호환 에이전트 백엔드에서 실행 (Claude Code, Codex CLI, Copilot CLI, Gemini CLI, Kimi CLI)
  • 메시징 플랫폼 — OpenClaw 브릿지를 통한 Discord, Telegram, Lark, WeChat 지원
  • 새 CLI 에이전트 코드 생성 백엔드 — Stage 10 & 13을 예산 제어 및 타임아웃 관리와 함께 외부 CLI 에이전트에 위임
  • Anti-fabrication 시스템 — VerifiedRegistry + 실험 진단 및 수리 루프
  • 100+ 버그 수정, 모듈형 실행자 리팩토링, --resume 자동 감지, LLM 재시도 강화

v0.3.1 (2026-03-18)

  • OpenCode Beast Mode — 복잡한 코드 생성을 OpenCode로 라우팅, 자동 복잡도 점수, 우아한 폴백
  • Novita AI 제공자 지원
  • 스레드 안전성 강화, LLM 출력 파싱 견고성 개선, 커뮤니티 PR 및 내부 감사에서 20+ 버그 수정

v0.3.0 (2026-03-17)

  • MetaClaw 통합 — AutoResearchClaw가 이제 MetaClaw 교차 실행 학습 지원: 파이프라인 실패 → 구조화된 교훈 → 재사용 가능한 스킬 → 모든 23 스테이지에 주입
  • 제어 실험에서 +18.3% 견고성 향상
  • 옵트인 (metaclaw_bridge.enabled: true), 완전 후방 호환

v0.2.0 (2026-03-16)

  • 세 개 다중 에이전트 하위 시스템 (CodeAgent, BenchmarkAgent, FigureAgent)
  • 네트워크 정책 인식 실행과 함께 강화된 Docker 샌드박스
  • 4라운드 논문 품질 감사 (AI-slop 감지, 7차원 심사 점수, NeurIPS 체크리스트)
  • 프로덕션 실행에서 15+ 버그 수정

v0.1.0 (2026-03-15)

  • AutoResearchClaw 릴리스: 단일 연구 아이디어를 회의 준비 논문으로 만드는 완전 자율 23단계 연구 파이프라인

영감

  • 🔬 AI Scientist (Sakana AI) — 자동 연구 선구자
  • 🧠 AutoResearch (Andrej Karpathy) — 종단 간 연구 자동화
  • 🌐 FARS (Analemma) — 완전 자동 연구 시스템

인용

AutoResearchClaw이 유용하다면 인용해 주세요:

@misc{liu2026autoresearchclaw,
  author = {Liu, Jiaqi and Xia, Peng and Han, Siwei and Qiu, Shi and Zhang, Letian and Chen, Guiming and Tu, Haoqin and Yang, Xinyu and Zhou, Jiawei and Zhu, Hongtu and Li, Yun and Zhou, Yuyin and Zheng, Zeyu and Xie, Cihang and Ding, Mingyu and Yao, Huaxiu},
  title = {AutoResearchClaw: Fully Autonomous Research from Idea to Paper},
  year = {2026},
  organization = {GitHub},
  url = {https://github.com/aiming-lab/AutoResearchClaw},
}

관련 프로젝트

실전 사용기

실전 사용기 요약

jkf87 작성자의 Whisper 기반 로컬 한국어 음성인식 도구 제작 연구에 AutoResearchClaw를 적용한 실전 사례입니다.

실행 환경:

  • 하드웨어: Apple M4 MacBook Air (32GB RAM, MPS GPU)
  • LLM: ZAI GLM-4.7 (api.z.ai)
  • Python: 3.14
  • 주제: Whisper + AutoResearch를 이용한 로컬 한국어 ASR

결과:

  • Stage 16/23 완료
  • 총 소요 시간: 약 1시간 30분
  • 프로젝트명: KORA (Korean Optimized Recognition Adaptation)

마주친 문제와 해결법:

  1. Reasoning 모델의 빈 응답 → strip_thinking_tags 추가
  2. arXiv Rate Limit → daily_paper_count를 2~3으로 제한
  3. LLM Context Overflow → quality_threshold: 5.0, ZAI 엔드포인트 사용
  4. 디스크 공간 → 실행 전 df -h 확인

언제 유용한가:

  • ⭐⭐⭐ 새로운 연구 주제 탐색
  • ⭐⭐⭐⭐ 초기 리터처처 서베이
  • ⭐⭐⭐ 실험 설계 브레인스토밍
  • ⭐⭐⭐⭐ 실제 논문 작성 (최종본)
  • ⭐⭐⭐⭐⭐⭐ 백새 마감일 전 초안 작성

Source: GitHub (2026-03-29)