Faster Whisper

部分內容由 LLM 生成，尚未經過人工驗證。

Faster Whisper 是基於 CTranslate2 的 Whisper 重新實作，相比原版 OpenAI Whisper 可提升 4 倍速度，同時減少記憶體使用量。

Faster Whisper 本身是 Python 函式庫，沒有內建 CLI。若需命令列操作，請安裝 whisper-ctranslate2，其 CLI 介面與原版 OpenAI Whisper 完全相同。

與原版 Whisper 的差異

項目	OpenAI Whisper	Faster Whisper
引擎	PyTorch	CTranslate2
速度	基準	約 4x 更快
記憶體	較高	較低
量化支援	有限	int8 / float16
GPU 支援	CUDA	CUDA
CPU 優化	一般	優化

安裝

安裝 CLI 工具（whisper-ctranslate2）

# 安裝 CLI 包裝器（內含 faster-whisper）
pip install whisper-ctranslate2

僅安裝函式庫

# 使用 pip
pip install faster-whisper

# 使用 uv
uv pip install faster-whisper

安裝 ffmpeg（必要依賴）

Faster Whisper 需要 ffmpeg 處理音訊：

# 使用 Chocolatey
choco install ffmpeg

# 或使用 Scoop
scoop install ffmpeg

brew install ffmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

可用模型

模型	參數量	所需 VRAM	說明
tiny	39 M	~1 GB	最快，準確度較低
base	74 M	~1 GB	平衡選擇
small	244 M	~2 GB	較佳準確度
medium	769 M	~5 GB	高準確度
large-v2	1550 M	~10 GB	最高準確度
large-v3	1550 M	~10 GB	最新版本

CLI 用法

CLI 介面與原版 OpenAI Whisper 相同，詳細用法請參考 Whisper 頁面。

基本轉錄

# 基本用法
whisper-ctranslate2 audio.mp3

# 指定模型
whisper-ctranslate2 audio.mp3 --model large-v3

# 指定語言（跳過自動偵測）
whisper-ctranslate2 audio.mp3 --language zh

輸出格式

# 輸出 SRT 字幕
whisper-ctranslate2 audio.mp3 --output_format srt

# 輸出多種格式
whisper-ctranslate2 audio.mp3 --output_format all

# 指定輸出目錄
whisper-ctranslate2 audio.mp3 --output_dir ./output

效能選項

# 使用 int8 量化（減少記憶體）
whisper-ctranslate2 audio.mp3 --compute_type int8

# 啟用 VAD 過濾靜音
whisper-ctranslate2 audio.mp3 --vad_filter true

# 批次推理（額外 2-4x 加速）
whisper-ctranslate2 audio.mp3 --batched true

常用參數

參數	說明	預設值
`device`	運算設備 (`cuda` / `cpu` / `auto`)	`auto`
`compute_type`	運算精度	`float16`
`language`	指定語言（如 `zh`, `en`, `ja`）	自動偵測
`beam_size`	Beam search 大小	5
`vad_filter`	啟用 VAD 過濾靜音段落	False
`word_timestamps`	詞級時間戳	False

compute_type 選項

類型	說明	適用場景
`float32`	完整精度	CPU 推理
`float16`	半精度	GPU 推理（推薦）
`int8`	8-bit 量化	低記憶體 GPU/CPU
`int8_float16`	混合精度	平衡速度與準確度

常見問題

支援的音訊格式

透過 ffmpeg 支援：

音訊：MP3, WAV, FLAC, AAC, OGG, M4A
影片：MP4, MKV, AVI, MOV（自動擷取音軌）

模型下載位置

模型預設下載至：

Linux/macOS: ~/.cache/huggingface/hub/
Windows: C:\Users\<user>\.cache\huggingface\hub\

最佳實踐

選擇適當模型：一般用途使用 base 或 small，需要高準確度使用 large-v3
啟用 VAD：長音訊建議啟用 VAD 過濾靜音段落
指定語言：已知語言時指定可跳過偵測，加快處理
使用量化：記憶體不足時使用 int8 或 int8_float16