Apple Speech API — Whisper보다 월등히 빠른 실시간 음성 텍스트 변환

WWDC에서 공개된 SpeechAnalyzer와 SpeechTranscriber. Whisper 대비 월등한 속도 + 동일 품질. macOS Tahoe 베타부터 사용 가능. 34분 7GB 영상을 45초만에 SRT 변환.

핵심 API

  • SpeechAnalyzer: 오디오/비디오 파일 배치 전사
  • SpeechTranscriber: 실시간 음성 인식 스트리밍
  • macOS, iOS, iPadOS, Vision Pro 최신 베타에 포함

성능 비교 (34분, 7GB 4K 영상)

도구소요 시간모델
Yap (Apple Speech API)45초SpeechAnalyzer
MacWhisper V3 Turbo1분 41초Whisper V3 Turbo
VidCap1분 55초Whisper
MacWhisper V23분 55초Whisper V2
  • 품질 차이는 거의 없음
  • CamelCase(예: AppStories)와 고유명사 인식 문제는 모든 도구에서 비슷하게 나타남 (후처리로 쉽게 교정 가능)

Yap — 커맨드라인 툴

Apple Speech API를 활용한 CLI 도구:

# 설치 후 사용
yap input.mp4  # → SRT/TXT 파일 생성

사용 방법

  1. macOS Tahoe 베타 설치 (현재는 개발자 계정 필요)
  2. Yap 깃허브에서 다운로드 및 설치
  3. 오디오/비디오 파일 입력 → SRT/TXT 변환

전망

  • Apple Speech API는 Apple 플랫폼에서 Whisper를 빠르게 대체할 가능성 높음
  • 자막 생성, 강의 요약, 팟캐스트 전사 등 반복 작업에서 누적 시간 절감 효과 매우 큼
  • Apple 플랫폼 전체(아이폰, 아이패드, Mac, Vision Pro)에서 향후 표준으로 자리잡을 전망

관련 프로젝트