Whisper

一部のコンテンツは LLM によって生成されており、まだ手動で検証されていません。

Whisper は OpenAI が開発(かいはつ) した自動(じどう) 音声(おんせい) 認識(にんしき) (ASR)モデルで、音声(おんせい) をテキストに変換(へんかん) し、タイムスタンプを生成(せいせい) できます。

インストール

pip でインストール

pip install -U openai-whisper

ffmpeg のインストール(必須(ひっす)

Whisper は音声(おんせい) ファイルを処理(しょり) するために ffmpeg が必要(ひつよう) です:

# Chocolatey を使用
choco install ffmpeg

# または Scoop を使用
scoop install ffmpeg
brew install ffmpeg
# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

利用(りよう) 可能(かのう) なモデル

モデルパラメータ(すう)英語(えいご) 専用(せんよう)多言語(たげんご)必要(ひつよう) VRAM相対(そうたい) 速度(そくど)
tiny39 Mtiny.entiny~1 GB~10x
base74 Mbase.enbase~1 GB~7x
small244 Msmall.ensmall~2 GB~4x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x
turbo809 MN/Aturbo~6 GB~8x
.en モデルは英語(えいご) 専用(せんよう) ですが、英語(えいご)認識(にんしき) 精度(せいど)(たか) いです。多言語(たげんご) モデルは言語(げんご)自動(じどう) 検出(けんしゅつ) できます。

基本(きほん) 的な使(つか)(かた)

コマンドライン

whisper audio.mp3 --model base

(おも) なパラメータ

パラメータ説明(せつめい)(れい)
--modelモデルを指定(してい)--model medium
--language言語(げんご)指定(してい)--language ja
--taskタスク種類(しゅるい) (transcribe/translate)--task translate
--output_dir出力(しゅつりょく) ディレクトリ--output_dir ./output
--output_format出力(しゅつりょく) フォーマット--output_format srt
--deviceデバイスを指定(してい)--device cuda

出力(しゅつりょく) フォーマット

フォーマット説明(せつめい)
txtプレーンテキスト(タイムスタンプなし)
vttWebVTT 字幕(じまく) フォーマット
srtSRT 字幕(じまく) フォーマット
tsvタブ区切(くぎ) り(タイムスタンプ() き)
jsonJSON フォーマット(詳細(しょうさい) 情報(じょうほう) () き)
all(すべ) てのフォーマットを出力(しゅつりょく)

よく使(つか) うコマンド(れい)

基本(きほん) 的な文字(もじ) () こし

# デフォルトモデルで文字起こし
whisper audio.mp3

# モデルを指定
whisper audio.mp3 --model medium

# 言語を指定(処理速度向上)
whisper audio.mp3 --model medium --language ja

字幕(じまく) ファイルの出力(しゅつりょく)

# SRT 字幕を出力
whisper audio.mp3 --model base --output_format srt

# 全フォーマットを出力
whisper audio.mp3 --model base --output_format all --output_dir ./subtitles

英語(えいご) への翻訳(ほんやく)

# 任意の言語を英語に翻訳
whisper audio.mp3 --model medium --task translate

GPU 高速化(こうそくか)

# CUDA を使用(NVIDIA GPU)
whisper audio.mp3 --model large --device cuda

# GPU 番号を指定
whisper audio.mp3 --model large --device cuda:0

詳細(しょうさい) パラメータ

パラメータ説明(せつめい)デフォルト()
--temperatureサンプリング温度(おんど)0
--best_of候補(こうほ) (すう)5
--beam_sizeBeam search サイズ5
--patienceBeam search patience1.0
--initial_prompt初期(しょき) プロンプトNone
--condition_on_previous_text前文(ぜんぶん)参照(さんしょう)True
--word_timestamps単語(たんご) レベルのタイムスタンプFalse

単語(たんご) レベルのタイムスタンプ

whisper audio.mp3 --model base --word_timestamps True

初期(しょき) プロンプトの使用(しよう)

# 専門用語やフォーマットのヒントを提供
whisper audio.mp3 --model medium --initial_prompt "これは機械学習に関する講演です"

パフォーマンス最適化(さいてきか)

メモリ不足(ふそく)場合(ばあい)

# 小さいモデルを使用
whisper audio.mp3 --model tiny

# または CPU を使用(遅いが GPU メモリ不要)
whisper audio.mp3 --model medium --device cpu

処理(しょり)高速化(こうそくか)

# turbo モデルを使用(速度と品質のバランス)
whisper audio.mp3 --model turbo

# 言語を指定(言語検出をスキップ)
whisper audio.mp3 --model base --language en

よくある質問(しつもん)

対応(たいおう) 音声(おんせい) フォーマット

Whisper は ffmpeg を(とお) じて(おお) くのフォーマットに対応(たいおう)

  • MP3, WAV, FLAC, AAC, OGG, M4A
  • 動画(どうが) ファイル(音声(おんせい)自動(じどう) 抽出(ちゅうしゅつ) ):MP4, MKV, AVI, MOV

ベストプラクティス

  1. 適切(てきせつ) なモデルを選択(せんたく) 一般(いっぱん) 用途(ようと) には basesmall高精度(こうせいど)必要(ひつよう)場合(ばあい)mediumlarge
  2. 言語(げんご)指定(してい) 言語(げんご)() かっている場合(ばあい)--language処理(しょり)高速化(こうそくか)
  3. 音声(おんせい) 品質(ひんしつ) :クリアな音声(おんせい)認識(にんしき) 精度(せいど)大幅(おおはば)向上(こうじょう)
  4. GPU 高速化(こうそくか) :NVIDIA GPU がある場合(ばあい)--device cuda使用(しよう)

関連(かんれん) トピック