UI-TARS Desktop
UI-TARS 모델 기반의 네이티브 GUI agent 데스크톱 앱. 로컬/원격 컴퓨터 오퍼레이터와 브라우저 오퍼레이터를 묶어, 실제 화면 위에서 작업을 수행하는 멀티모달 에이전트 실행면이다.
개요
UI-TARS-desktop는 Bytedance의 multimodal AI Agent stack 중 하나로, 현재 레포는 Agent TARS와 UI-TARS-desktop 두 프로젝트를 함께 담고 있다. 그중 이 노트는 UI-TARS Desktop에 초점을 맞춘다.
핵심 포지셔닝은 단순한 브라우저 자동화가 아니라, 화면을 보고 행동하는 GUI agent다. README 기준으로는 다음 두 축이 중요하다.
- local computer operator: 로컬 데스크톱을 직접 조작
- remote computer/browser operator: 원격 컴퓨터 및 브라우저를 제어
핵심 포인트
- 네이티브 GUI agent: UI-TARS 모델 기반
- 로컬/원격 오퍼레이터: computer + browser operator를 함께 제공
- 멀티모달 스택: terminal, computer, browser, product 영역을 하나의 에이전트 실행면으로 묶는 방향
- CLI / Web UI: Agent TARS 쪽은 CLI와 Web UI를 함께 제공
- 오픈소스: Apache-2.0
- 실제 작업 지향: 브라우저만이 아니라 화면 조작이 필요한 워크플로에 적합
왜 눈여겨볼 만한가
이 프로젝트는 브라우저 자동화만 하는 도구와 달리, OS 경계까지 포함한 GUI 에이전트를 지향한다. 그래서 아래 계열과 비교할 때 위치가 더 선명하다.
browser-use계열: 브라우저 중심 자동화usecomputer/ CUA 계열: 데스크톱/OS 조작 중심- UI-TARS Desktop: 브라우저 + 컴퓨터 조작을 하나의 멀티모달 런타임으로 묶는 쪽
관점에서는 “화면 기반 작업을 처리하는 agent OS layer” 쪽 후보로 보는 편이 맞다. 특히 로그인된 세션, 원격 브라우저, 실제 앱 조작이 섞인 작업에 어울린다.
다만 README가 상위 레벨 소개 중심이어서, 실제 품질은 별도 검증이 필요하다.
- 로컬/원격 operator 안정성
- 브라우저 로그인 세션 유지
- 다중 모니터/해상도 환경 처리
- 모델 응답 지연과 화면 행동의 동기화
- 장시간 실행 시 에러 복원력
관련 노트
- 2026-05-02-browser-use-desktop-ai-browser-automation — Chrome 로그인 상속 중심의 Mac 브라우저 에이전트
- 2026-03-24-usecomputer — macOS 데스크톱 자동화 CLI
- 2026-05-05-background-computer-use — macOS background computer-use API
- 2026-04-15-claude-code-desktop-app-rewrite — Claude Code 데스크톱 앱 재작성
- 2026-04-10-factory-droid-desktop-app — 멀티모달 데스크톱 에이전트 앱
- computer-use-agent-landscape — CUA / desktop agent 전체 지형도
- moc-ai-agents