Whisper

一部のコンテンツは LLM によって生成されており、まだ手動で検証されていません。

Whisper は OpenAI が開発(かいはつ) した自動(じどう) 音声(おんせい) 認識(にんしき) （ASR）モデルで、音声(おんせい) をテキストに変換(へんかん) し、タイムスタンプを生成(せいせい) できます。

インストール

pip でインストール

pip install -U openai-whisper

ffmpeg のインストール（必須(ひっす) ）

Whisper は音声(おんせい) ファイルを処理(しょり) するために ffmpeg が必要(ひつよう) です：

# Chocolatey を使用
choco install ffmpeg

# または Scoop を使用
scoop install ffmpeg

brew install ffmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

利用(りよう) 可能(かのう) なモデル

モデル	パラメータ数(すう)	英語(えいご) 専用(せんよう)	多言語(たげんご)	必要(ひつよう) VRAM	相対(そうたい) 速度(そくど)
tiny	39 M	`tiny.en`	`tiny`	~1 GB	~10x
base	74 M	`base.en`	`base`	~1 GB	~7x
small	244 M	`small.en`	`small`	~2 GB	~4x
medium	769 M	`medium.en`	`medium`	~5 GB	~2x
large	1550 M	N/A	`large`	~10 GB	1x
turbo	809 M	N/A	`turbo`	~6 GB	~8x

.en モデルは英語(えいご) 専用(せんよう) ですが、英語(えいご) の認識(にんしき) 精度(せいど) が高(たか) いです。多言語(たげんご) モデルは言語(げんご) を自動(じどう) 検出(けんしゅつ) できます。

基本(きほん) 的な使(つか) い方(かた)

コマンドライン

whisper audio.mp3 --model base

主(おも) なパラメータ

パラメータ	説明(せつめい)	例(れい)
`--model`	モデルを指定(してい)	`--model medium`
`--language`	言語(げんご) を指定(してい)	`--language ja`
`--task`	タスク種類(しゅるい) （transcribe/translate）	`--task translate`
`--output_dir`	出力(しゅつりょく) ディレクトリ	`--output_dir ./output`
`--output_format`	出力(しゅつりょく) フォーマット	`--output_format srt`
`--device`	デバイスを指定(してい)	`--device cuda`

出力(しゅつりょく) フォーマット

フォーマット	説明(せつめい)
`txt`	プレーンテキスト（タイムスタンプなし）
`vtt`	WebVTT 字幕(じまく) フォーマット
`srt`	SRT 字幕(じまく) フォーマット
`tsv`	タブ区切(くぎ) り（タイムスタンプ付(つ) き）
`json`	JSON フォーマット（詳細(しょうさい) 情報(じょうほう) 付(つ) き）
`all`	全(すべ) てのフォーマットを出力(しゅつりょく)

よく使(つか) うコマンド例(れい)

基本(きほん) 的な文字(もじ) 起(お) こし

# デフォルトモデルで文字起こし
whisper audio.mp3

# モデルを指定
whisper audio.mp3 --model medium

# 言語を指定（処理速度向上）
whisper audio.mp3 --model medium --language ja

字幕(じまく) ファイルの出力(しゅつりょく)

# SRT 字幕を出力
whisper audio.mp3 --model base --output_format srt

# 全フォーマットを出力
whisper audio.mp3 --model base --output_format all --output_dir ./subtitles

英語(えいご) への翻訳(ほんやく)

# 任意の言語を英語に翻訳
whisper audio.mp3 --model medium --task translate

GPU 高速化(こうそくか)

# CUDA を使用（NVIDIA GPU）
whisper audio.mp3 --model large --device cuda

# GPU 番号を指定
whisper audio.mp3 --model large --device cuda:0

詳細(しょうさい) パラメータ

パラメータ	説明(せつめい)	デフォルト値(ち)
`--temperature`	サンプリング温度(おんど)	0
`--best_of`	候補(こうほ) 数(すう)	5
`--beam_size`	Beam search サイズ	5
`--patience`	Beam search patience	1.0
`--initial_prompt`	初期(しょき) プロンプト	None
`--condition_on_previous_text`	前文(ぜんぶん) を参照(さんしょう)	True
`--word_timestamps`	単語(たんご) レベルのタイムスタンプ	False

単語(たんご) レベルのタイムスタンプ

whisper audio.mp3 --model base --word_timestamps True

初期(しょき) プロンプトの使用(しよう)

# 専門用語やフォーマットのヒントを提供
whisper audio.mp3 --model medium --initial_prompt "これは機械学習に関する講演です"

パフォーマンス最適化(さいてきか)

メモリ不足(ふそく) の場合(ばあい)

# 小さいモデルを使用
whisper audio.mp3 --model tiny

# または CPU を使用（遅いが GPU メモリ不要）
whisper audio.mp3 --model medium --device cpu

処理(しょり) を高速化(こうそくか)

# turbo モデルを使用（速度と品質のバランス）
whisper audio.mp3 --model turbo

# 言語を指定（言語検出をスキップ）
whisper audio.mp3 --model base --language en

よくある質問(しつもん)

対応(たいおう) 音声(おんせい) フォーマット

Whisper は ffmpeg を通(とお) じて多(おお) くのフォーマットに対応(たいおう) ：

MP3, WAV, FLAC, AAC, OGG, M4A
動画(どうが) ファイル（音声(おんせい) を自動(じどう) 抽出(ちゅうしゅつ) ）：MP4, MKV, AVI, MOV

ベストプラクティス

適切(てきせつ) なモデルを選択(せんたく) ：一般(いっぱん) 用途(ようと) には base か small、高精度(こうせいど) が必要(ひつよう) な場合(ばあい) は medium か large
言語(げんご) を指定(してい) ：言語(げんご) が分(わ) かっている場合(ばあい) は --language で処理(しょり) を高速化(こうそくか)
音声(おんせい) 品質(ひんしつ) ：クリアな音声(おんせい) は認識(にんしき) 精度(せいど) を大幅(おおはば) に向上(こうじょう)
GPU 高速化(こうそくか) ：NVIDIA GPU がある場合(ばあい) は --device cuda を使用(しよう)