Apple Speech API — Whisper보다 월등히 빠른 실시간 음성 텍스트 변환
WWDC에서 공개된 SpeechAnalyzer와 SpeechTranscriber. Whisper 대비 월등한 속도 + 동일 품질. macOS Tahoe 베타부터 사용 가능. 34분 7GB 영상을 45초만에 SRT 변환.
핵심 API
- SpeechAnalyzer: 오디오/비디오 파일 배치 전사
- SpeechTranscriber: 실시간 음성 인식 스트리밍
- macOS, iOS, iPadOS, Vision Pro 최신 베타에 포함
성능 비교 (34분, 7GB 4K 영상)
| 도구 | 소요 시간 | 모델 |
|---|---|---|
| Yap (Apple Speech API) | 45초 | SpeechAnalyzer |
| MacWhisper V3 Turbo | 1분 41초 | Whisper V3 Turbo |
| VidCap | 1분 55초 | Whisper |
| MacWhisper V2 | 3분 55초 | Whisper V2 |
- 품질 차이는 거의 없음
- CamelCase(예: AppStories)와 고유명사 인식 문제는 모든 도구에서 비슷하게 나타남 (후처리로 쉽게 교정 가능)
Yap — 커맨드라인 툴
Apple Speech API를 활용한 CLI 도구:
# 설치 후 사용
yap input.mp4 # → SRT/TXT 파일 생성- yt-dlp 등과 연계하여 YouTube 영상 대량 일괄 변환 자동화 가능
- GitHub: https://github.com/finnvoor/yap
사용 방법
- macOS Tahoe 베타 설치 (현재는 개발자 계정 필요)
- Yap 깃허브에서 다운로드 및 설치
- 오디오/비디오 파일 입력 → SRT/TXT 변환
전망
- Apple Speech API는 Apple 플랫폼에서 Whisper를 빠르게 대체할 가능성 높음
- 자막 생성, 강의 요약, 팟캐스트 전사 등 반복 작업에서 누적 시간 절감 효과 매우 큼
- Apple 플랫폼 전체(아이폰, 아이패드, Mac, Vision Pro)에서 향후 표준으로 자리잡을 전망
관련 프로젝트
- vvrite — Qwen3-ASR 온디바이스 음성 타이핑
- Whispree — 한국어 STT + LLM 교정
- FreeFlow — Groq 기반 음성 받아쓰기
- apfel — Mac 내장 AI (FoundationModels.framework)
Related
- Source: macstories.net
- Source: news.hada.io/topic?id=21573
- WWDC 영상: #277