Whisper
一部のコンテンツは LLM によって生成されており、まだ手動で検証されていません。
Whisper は OpenAI が開発 した自動 音声 認識 (ASR)モデルで、音声 をテキストに変換 し、タイムスタンプを生成 できます。
インストール
pip でインストール
pip install -U openai-whisperffmpeg のインストール(必須 )
Whisper は音声 ファイルを処理 するために ffmpeg が必要 です:
# Chocolatey を使用
choco install ffmpeg
# または Scoop を使用
scoop install ffmpegbrew install ffmpeg# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg
# Arch Linux
sudo pacman -S ffmpeg利用 可能 なモデル
| モデル | パラメータ数 | 英語 専用 | 多言語 | 必要 VRAM | 相対 速度 |
|---|---|---|---|---|---|
| tiny | 39 M | tiny.en | tiny | ~1 GB | ~10x |
| base | 74 M | base.en | base | ~1 GB | ~7x |
| small | 244 M | small.en | small | ~2 GB | ~4x |
| medium | 769 M | medium.en | medium | ~5 GB | ~2x |
| large | 1550 M | N/A | large | ~10 GB | 1x |
| turbo | 809 M | N/A | turbo | ~6 GB | ~8x |
.en モデルは英語
専用
ですが、英語
の認識
精度
が高
いです。多言語
モデルは言語
を自動
検出
できます。基本 的な使 い方
コマンドライン
whisper audio.mp3 --model base主 なパラメータ
| パラメータ | 説明 | 例 |
|---|---|---|
--model | モデルを指定 | --model medium |
--language | 言語 を指定 | --language ja |
--task | タスク種類 (transcribe/translate) | --task translate |
--output_dir | 出力 ディレクトリ | --output_dir ./output |
--output_format | 出力 フォーマット | --output_format srt |
--device | デバイスを指定 | --device cuda |
出力 フォーマット
| フォーマット | 説明 |
|---|---|
txt | プレーンテキスト(タイムスタンプなし) |
vtt | WebVTT 字幕 フォーマット |
srt | SRT 字幕 フォーマット |
tsv | タブ区切 り(タイムスタンプ付 き) |
json | JSON フォーマット(詳細 情報 付 き) |
all | 全 てのフォーマットを出力 |
よく使 うコマンド例
基本 的な文字 起 こし
# デフォルトモデルで文字起こし
whisper audio.mp3
# モデルを指定
whisper audio.mp3 --model medium
# 言語を指定(処理速度向上)
whisper audio.mp3 --model medium --language ja字幕 ファイルの出力
# SRT 字幕を出力
whisper audio.mp3 --model base --output_format srt
# 全フォーマットを出力
whisper audio.mp3 --model base --output_format all --output_dir ./subtitles英語 への翻訳
# 任意の言語を英語に翻訳
whisper audio.mp3 --model medium --task translateGPU 高速化
# CUDA を使用(NVIDIA GPU)
whisper audio.mp3 --model large --device cuda
# GPU 番号を指定
whisper audio.mp3 --model large --device cuda:0詳細 パラメータ
| パラメータ | 説明 | デフォルト値 |
|---|---|---|
--temperature | サンプリング温度 | 0 |
--best_of | 候補 数 | 5 |
--beam_size | Beam search サイズ | 5 |
--patience | Beam search patience | 1.0 |
--initial_prompt | 初期 プロンプト | None |
--condition_on_previous_text | 前文 を参照 | True |
--word_timestamps | 単語 レベルのタイムスタンプ | False |
単語 レベルのタイムスタンプ
whisper audio.mp3 --model base --word_timestamps True初期 プロンプトの使用
# 専門用語やフォーマットのヒントを提供
whisper audio.mp3 --model medium --initial_prompt "これは機械学習に関する講演です"パフォーマンス最適化
メモリ不足 の場合
# 小さいモデルを使用
whisper audio.mp3 --model tiny
# または CPU を使用(遅いが GPU メモリ不要)
whisper audio.mp3 --model medium --device cpu処理 を高速化
# turbo モデルを使用(速度と品質のバランス)
whisper audio.mp3 --model turbo
# 言語を指定(言語検出をスキップ)
whisper audio.mp3 --model base --language enよくある質問
対応 音声 フォーマット
Whisper は ffmpeg を通 じて多 くのフォーマットに対応 :
- MP3, WAV, FLAC, AAC, OGG, M4A
- 動画 ファイル(音声 を自動 抽出 ):MP4, MKV, AVI, MOV
ベストプラクティス
- 適切
なモデルを選択
:一般
用途
には
baseかsmall、高精度 が必要 な場合 はmediumかlarge - 言語
を指定
:言語
が分
かっている場合
は
--languageで処理 を高速化 - 音声 品質 :クリアな音声 は認識 精度 を大幅 に向上
- GPU 高速化
:NVIDIA GPU がある場合
は
--device cudaを使用