Apple Speech API — Whisper보다 월등히 빠른 실시간 음성 텍스트 변환

WWDC에서 공개된 SpeechAnalyzer와 SpeechTranscriber. Whisper 대비 월등한 속도 + 동일 품질. macOS Tahoe 베타부터 사용 가능. 34분 7GB 영상을 45초만에 SRT 변환.

핵심 API

SpeechAnalyzer: 오디오/비디오 파일 배치 전사
SpeechTranscriber: 실시간 음성 인식 스트리밍
macOS, iOS, iPadOS, Vision Pro 최신 베타에 포함

성능 비교 (34분, 7GB 4K 영상)

도구	소요 시간	모델
Yap (Apple Speech API)	45초	SpeechAnalyzer
MacWhisper V3 Turbo	1분 41초	Whisper V3 Turbo
VidCap	1분 55초	Whisper
MacWhisper V2	3분 55초	Whisper V2

품질 차이는 거의 없음
CamelCase(예: AppStories)와 고유명사 인식 문제는 모든 도구에서 비슷하게 나타남 (후처리로 쉽게 교정 가능)

Yap — 커맨드라인 툴

Apple Speech API를 활용한 CLI 도구:

# 설치 후 사용
yap input.mp4  # → SRT/TXT 파일 생성

yt-dlp 등과 연계하여 YouTube 영상 대량 일괄 변환 자동화 가능
GitHub: https://github.com/finnvoor/yap

사용 방법

macOS Tahoe 베타 설치 (현재는 개발자 계정 필요)
Yap 깃허브에서 다운로드 및 설치
오디오/비디오 파일 입력 → SRT/TXT 변환

전망

Apple Speech API는 Apple 플랫폼에서 Whisper를 빠르게 대체할 가능성 높음
자막 생성, 강의 요약, 팟캐스트 전사 등 반복 작업에서 누적 시간 절감 효과 매우 큼
Apple 플랫폼 전체(아이폰, 아이패드, Mac, Vision Pro)에서 향후 표준으로 자리잡을 전망

관련 프로젝트

vvrite — Qwen3-ASR 온디바이스 음성 타이핑
Whispree — 한국어 STT + LLM 교정
FreeFlow — Groq 기반 음성 받아쓰기
apfel — Mac 내장 AI (FoundationModels.framework)

Source: macstories.net
Source: news.hada.io/topic?id=21573
WWDC 영상: #277