Hermes Agent 활용 사례와 나만의 사용법

@vmiss33이 지난 몇 주간 hermes-agent 멀티 에이전트 구성을 운영하면서 얻은 인사이트를 공유한다. “무엇에 쓸지 몰라서 방치했던” 초기 상태에서 벗어나, 자신의 삶과 워크플로우에 맞춘 실용적인 에이전트 크루를 구성한 과정을 상세히 설명한다.

핵심 철학

AI를 나의 어시스턴트로 대한다. 생각을 대체하는 용도가 아니라, 방향을 제시하고 단순 노동을 처리하게 한 뒤 직접 검증하고 진행한다. 자동화는 본인이 이미 이해하고 있는 작업에만 적용한다.

Hermes Agent를 무엇에 쓸지 찾는 방법

1. 하루/일주일 동안 한 일을 기록하기

하루 동안 실제로 한 일들을 적고, 그 목록을 자세히 들여다본다. 이후 일주일 정도 목록을 확장하면서 다음 질문을 던진다:

  • “많은 시간이 걸렸던 것은 무엇인가?”
  • “해야 하지만 내 워크플로우에 큰 가치를 주지 않는 것은 무엇인가?“

2. 삶의 소프트한 이슈 찾기

“어떤 모델을 로컬에서 돌릴까” 같은 기술적 질문이 아니라, 인간으로서의 삶에 영향을 주는 소프트한 것들:

  • 자주 깜빡하는 일
  • 삶을 더 어렵게 만드는 마찰 요소

핵심 교훈: 기술이 아니라 문제에서 시작하라. 3090 스택 없이도 시작할 수 있다.


에이전트 크루 구성

hermes-agent의 강점 중 하나는 프로필별로 다른 프로바이더/모델을 설정하고, TUI에서 언제든지 쉽게 모델을 변경할 수 있다는 점이다. @vmiss33은 TUI와 telegram으로 에이전트에 접근한다.

Tech Research Agent (기술 리서치 에이전트)

  • 용도: 특정 주제에 대한 연구 브리핑 + 인용(citation) 제공
  • 중요 포인트: 논문/소스 자료를 직접 읽기 위해 인용이 필수
  • 사례: 모델 양자화(quantization) 방법을 스스로 학습 — 에이전트가 대신 해주는 게 아니라 가르쳐 주는 역할
  • 프로바이더: nous-portal + MiniMax M2.7, 과거에는 nvidia-nim 모델도 사용

Tech Task Master Agent (기술 작업 집행 에이전트)

  • 용도: hermes-agent 스킬 빌드, TUI 커스터마이징 등 “뭐든지” 에이전트
  • 프로바이더: gpt-5.5 via ChatGPT Plus Codex 구독 (API 아님)
  • 특이점: 구독 기반이라 할당량 관리가 필요하지만 거의 완벽하게 동작

두 Tech Agent의 분리 전략: 하나는 연구자(Researcher), 하나는 실행자(Executor)로 역할을 나눠 상호교환적 사용에서 발전했다.

Lifestyle Agent (라이프스타일 에이전트)

  • 용도: 하루 중 특정 시간에 물 마시기 리마인더 → 텔레그램 메시지 발송
  • 향후 확장 계획: 자세 체크, 운동 휴식 알림
  • 프로바이더: OpenRouter 무료 모델 — NVIDIA Nemotron 3 Super
  • 의의: “우스꽝스럽지만 게임 체인저” — 작은 무료 모델로도 의미 있는 자동화 가능

Lifestyle / Research Agent (라이프스타일 + 연구 에이전트)

  • 용도: 만성 건강 상태(MCAS/심각한 식품 알레르기) 관련 연구 논문 및 뉴스 검색, 저녁 식단 추천
  • 작동 방식: 레시피 목록을 주면 하나를 응답하거나, 가지고 있는 재료 목록으로 요리 아이디어 제안
  • 프로바이더: 로컬 모델 — RTX 4070 8GB 노트북에서 llama.cpp로 서빙, qwen 3.5 9B quant (64k context)
  • 의의: 작은 로컬 모델로도 가장 인상적인 결과를 내는 에이전트

프로바이더 / 모델 전략

“가능한 한 저렴하게” — 개인 미션. Anthropic API에 연결해서 하루 수백 달러 쓰는 사례를 보고 충격받아 비용 최적화에 집중.

OpenRouter — 무료 모델

  • 10달러 크레딧 충전 → 하루 1,000 요청 / 분당 20 요청 (완전 무료 계정은 하루 50 요청)
  • 주요 무료 모델: nvidia/nemotron-3-super-120b-a12b:free

Nous Portal — 월 $10 구독

  • API 기반 구독, 툴 호출(tool calling) 포함
  • 현재 사용: MiniMax M2.7
  • 절약해서 사용 중

로컬 모델

  • 하드웨어: NVIDIA RTX 4070 8GB VRAM 노트북 + llama.cpp (64k context 서빙)
  • 주력 모델: qwen 3.5 9B quant
  • 백업: M1 MacBook 16GB RAM에서도 동일 모델 구동 가능
  • 진입 도구: lmstudio → Hermes에서 쉽게 연결 가능
  • 핵심 인사이트: 이미 가지고 있는 장비로도 놀라운 성능을 낼 수 있다. 누구나 시도해볼 것.

ChatGPT Plus 구독 — 월 $20

  • 구독 연결로 gpt-5.5 사용
  • 할당량 이슈 없음
  • “왜 이걸 이제야 했는지 모르겠다. 거의 완벽하다.”

NVIDIA NIM — 무료 모델

  • build.nvidia.com/models에서 계정 생성 → API 키 발급
  • 상당수 모델이 무료 제공
  • 다양한 모델의 “느낌”을 경험하기 좋은 방법

DeepSeek v4 API (시도 예정)

  • Twitter에서 다수 추천
  • 5월 말까지 75% 할인이라는 파격적인 가격

시작하는 사람들을 위한 조언

  1. 기술이 아니라 문제에서 시작하라
  2. 자신의 삶, 워크플로우, 마찰 지점에서 시작하라
  3. 그런 다음 그 주변에 에이전트를 구축하라

“그게 바로 이게 실제로 유용해지는 지점이다.”


크로스 레퍼런스