Faster Whisper
部分內容由 LLM 生成,尚未經過人工驗證。
Faster Whisper 是基於 CTranslate2 的 Whisper 重新實作,相比原版 OpenAI Whisper 可提升 4 倍速度,同時減少記憶體使用量。
Faster Whisper 本身是 Python 函式庫,沒有內建 CLI。若需命令列操作,請安裝 whisper-ctranslate2,其 CLI 介面與原版 OpenAI Whisper 完全相同。
與原版 Whisper 的差異
| 項目 | OpenAI Whisper | Faster Whisper |
|---|---|---|
| 引擎 | PyTorch | CTranslate2 |
| 速度 | 基準 | 約 4x 更快 |
| 記憶體 | 較高 | 較低 |
| 量化支援 | 有限 | int8 / float16 |
| GPU 支援 | CUDA | CUDA |
| CPU 優化 | 一般 | 優化 |
安裝
安裝 CLI 工具(whisper-ctranslate2)
# 安裝 CLI 包裝器(內含 faster-whisper)
pip install whisper-ctranslate2僅安裝函式庫
# 使用 pip
pip install faster-whisper
# 使用 uv
uv pip install faster-whisper安裝 ffmpeg(必要依賴)
Faster Whisper 需要 ffmpeg 處理音訊:
# 使用 Chocolatey
choco install ffmpeg
# 或使用 Scoop
scoop install ffmpegbrew install ffmpeg# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg
# Arch Linux
sudo pacman -S ffmpeg可用模型
| 模型 | 參數量 | 所需 VRAM | 說明 |
|---|---|---|---|
| tiny | 39 M | ~1 GB | 最快,準確度較低 |
| base | 74 M | ~1 GB | 平衡選擇 |
| small | 244 M | ~2 GB | 較佳準確度 |
| medium | 769 M | ~5 GB | 高準確度 |
| large-v2 | 1550 M | ~10 GB | 最高準確度 |
| large-v3 | 1550 M | ~10 GB | 最新版本 |
CLI 用法
CLI 介面與原版 OpenAI Whisper 相同,詳細用法請參考 Whisper 頁面。
基本轉錄
# 基本用法
whisper-ctranslate2 audio.mp3
# 指定模型
whisper-ctranslate2 audio.mp3 --model large-v3
# 指定語言(跳過自動偵測)
whisper-ctranslate2 audio.mp3 --language zh輸出格式
# 輸出 SRT 字幕
whisper-ctranslate2 audio.mp3 --output_format srt
# 輸出多種格式
whisper-ctranslate2 audio.mp3 --output_format all
# 指定輸出目錄
whisper-ctranslate2 audio.mp3 --output_dir ./output效能選項
# 使用 int8 量化(減少記憶體)
whisper-ctranslate2 audio.mp3 --compute_type int8
# 啟用 VAD 過濾靜音
whisper-ctranslate2 audio.mp3 --vad_filter true
# 批次推理(額外 2-4x 加速)
whisper-ctranslate2 audio.mp3 --batched true常用參數
| 參數 | 說明 | 預設值 |
|---|---|---|
device | 運算設備 (cuda / cpu / auto) | auto |
compute_type | 運算精度 | float16 |
language | 指定語言(如 zh, en, ja) | 自動偵測 |
beam_size | Beam search 大小 | 5 |
vad_filter | 啟用 VAD 過濾靜音段落 | False |
word_timestamps | 詞級時間戳 | False |
compute_type 選項
| 類型 | 說明 | 適用場景 |
|---|---|---|
float32 | 完整精度 | CPU 推理 |
float16 | 半精度 | GPU 推理(推薦) |
int8 | 8-bit 量化 | 低記憶體 GPU/CPU |
int8_float16 | 混合精度 | 平衡速度與準確度 |
常見問題
支援的音訊格式
透過 ffmpeg 支援:
- 音訊:MP3, WAV, FLAC, AAC, OGG, M4A
- 影片:MP4, MKV, AVI, MOV(自動擷取音軌)
模型下載位置
模型預設下載至:
- Linux/macOS:
~/.cache/huggingface/hub/ - Windows:
C:\Users\<user>\.cache\huggingface\hub\
最佳實踐
- 選擇適當模型:一般用途使用
base或small,需要高準確度使用large-v3 - 啟用 VAD:長音訊建議啟用 VAD 過濾靜音段落
- 指定語言:已知語言時指定可跳過偵測,加快處理
- 使用量化:記憶體不足時使用
int8或int8_float16