openaiのwhisperの使い方
概要
- openaiが公開しているOSSのspeech-to-textモデル
- medium以上のウェイトは高精度
- CPUでの推論は非常に遅い(2分の音声ファイルで10分以上かかる)
- 単語のタイムスタンプを取得できる
インストール
$ pip install openai-whisper
使い方
import whisper
# モデルのロード
model = whisper.load_model("medium") # 'base'はモデルのサイズです。'tiny', 'small', 'medium', 'large' から選べます。
# 音声ファイルの変換
result = model.transcribe(file, language="ja", word_timestamps=True) # 日本語指定, 単語のタイムスタンプを取得