
Whisper API使ってみたら…高っ!!
音声の文字起こしといえば、OpenAIのWhisper。
私も最初は、「APIでポチッと送れば高精度な文字起こしがすぐできる!」と思って、Whisper APIを使ってました。
でもある日、ふと気づいたんです。
「60分の音声1本で55円…? え、4本で220円!?なんか高くない?」
しかも、生徒の発話が沈黙の多いタイプだったとき、不思議な文字起こしが返ってくることもありました。
(「ウンウィーン…」とか謎の単語が爆誕)
このままAPIを使い続けるのはしんどいかも。
でも、精度は落としたくない。
そんなときに見つけたのが、WhisperXという選択肢でした。
WhisperXってなにがすごいの?
WhisperXは、OpenAIのWhisperをベースに、
📍「現場で使える実用性」を大幅に強化した神アップデート版です。
🔍 何が強化されているの?
機能 | Whisper(API版) | WhisperX |
---|---|---|
⏱ タイムスタンプ | 文単位 | ✅ 単語ごとに秒数が出る! |
👥 話者分離 | ❌ なし | ✅ 誰がしゃべったかがわかる! |
🎧 精度調整 | できない | ✅ オプションで細かく調整可能 |
💾 出力形式 | プレーンテキスト | ✅ JSON(構造化)で扱いやすい |
💸 実行場所 | API経由のみ | ✅ ローカルでもクラウドでもOK |
💡 実際どう便利か?
例えばコーチングセッションの録音を処理する場合👇
- 「この気づき発言、どのタイミングで出たんだっけ?」
- 「生徒とコーチの発話、どう分けて記録しよう?」
- 「意味のある会話だけログに残したい!」
こういった実務ニーズに、WhisperXは直接応えてくれます。
Whisper APIだけではどうしても難しかった
- 高精度なタイムライン構築
- 話者の区別
- セッション全体の構造把握
が、これひとつで全部できちゃうのです。
試して分かった!
「話者分離もできて、ローカルで動かせて、コスパも良い」って聞いて、
「なんかすごそうだけど、どうせ重たいんでしょ?」
って思ってました。正直。
でも実際に試してみたら…
g5 Spotインスタンスで爆速・爆安!
WhisperX、想像の3倍ぐらいサクサクでした。
🧪 試して分かったことまとめ
試したこと | 結果 | コメント |
---|---|---|
medium モデルをCPUで回す | ✅ 動く!けどちょっと遅い | 試作段階ならギリOK(5分音声で10分くらい) |
g4dnで回す | ◯ まあまあ速い | でもコスト的に微妙。g5の方が安いという逆転現象あり |
g5 Spotで回す | 💥 超速!超安! | 60分音声が3分で終わって、1件あたり約2〜7円とか。神。 |
Zoomで話者分離してある音声で使う | 🎯 精度バッチリ | 話者判定いらないので高速&正確!超向いてる |
💡 特に驚いたのが…
g5 Spot(GPUインスタンス)の方が、g4より安くて速いという事実。
- g4dn:1時間あたり約100円
- g5 Spot:1時間あたり20〜50円で使えることも
- なのに処理速度は2〜3倍速い
💡補足:g4dn?g5 Spot?ってなに?
WhisperXをローカルやクラウドで使う場合、GPU(画像処理用の高性能な計算機)を使うと処理が爆速になります。
AWS(アマゾンが提供しているクラウドサービス)では、GPUが使えるインスタンスとしてこんな種類があります👇
名前 | 中身 | 特徴 |
---|---|---|
g4dn.xlarge | NVIDIA T4(旧世代GPU) | コスパはまあまあ。Whisperも動くけど処理がちょっと遅め |
g5.xlarge | NVIDIA A10G(新世代GPU) | 2〜3倍速いのに、Spotならg4より安い!超コスパ◎ |
💸 Spotインスタンスってなに?
AWSが「今あいてるマシン、余ってるから安く貸すよ〜」という制度です。
⚠ ただし、急に終了されることがあるため、本番よりも「バッチ処理や試作」に向いています。
- 通常の価格(オンデマンド)より最大90%オフ
- g5.xlargeのSpotだと1時間あたり20〜50円程度で使えることも
※この1時間というのはGPUの起動時間のことで、音声の時間じゃありません。
🎧 つまり…
例えば👇
WhisperXで「60分の音声」を処理したとしても、処理が3分で終われば、課金されるのはその3分だけ!
なので、
- g5 Spotの単価が¥30/1時間(=60分)だとして
- WhisperXが60分の音声を 3分で処理したら、
¥30 × (3 ÷ 60) = ¥1.5(たったの1円ちょっと!)
※Spotは最低60秒の課金あり
💡 よくある誤解との違い
誤解 | 正確な理解 |
---|---|
「1時間の音声処理=1時間分の料金がかかる」 | ❌ 違います! |
「料金は音声の長さで決まる」 | ❌ Whisper APIはそうだけど、WhisperXは違う! |
✅ 「WhisperX(ローカル)は処理にかかった時間だけが料金になる」 | 🎯 その通り! |
Whisper APIとの費用比較
Whisper APIは、簡単に高精度な文字起こしができる便利なサービスですが…
実際に何本も音声を処理するとなると、費用がどんどん積み上がっていきます。
💸 たとえば、こんな感じ
音声の長さ | Whisper API | WhisperX(g5 Spot) |
---|---|---|
60分 × 1本 | 約 ¥55 | 約 ¥2〜7 |
60分 × 4本 | 約 ¥220 | 約 ¥25 |
60分 × 30本 | 約 ¥1,650 | 約 ¥150(← 1/10以下!) |
APIだと「送るだけで楽」なのは確かなんですが、
- セキュリティ的に音声をクラウドに送る必要がある
- 音声の無音部分にも課金される
- 単価は安く見えても大量処理だとかなり高くなる
一方、WhisperX(ローカル実行)なら👇
- 音声ファイルは自分の環境で完結
- GPUの使用時間だけが課金対象
- 処理が早いほどコストも減る(Spotなら超激安)
コスパの結論
Whisper API → 手軽だけど、たくさん処理するならコスパ最悪
WhisperX → セットアップ少し手間。でも10倍以上の節約になる。しかも精度も高い!
話者分離の精度って実際どうなの?
「話者分離ってどのくらい正確なの?」
これは、私も最初にめちゃくちゃ気になったポイントでした。
結論から言うと…
- WhisperXの話者分離は、Zoomの録音やふたり会話なら実用レベルで問題なし!
※3人以上や交互でない会話は△ - 精度も処理スピードも優秀。
- Googleと比べればやや劣るけど、無料でこの性能はすごすぎる。
🔍 実際に比べてみた感覚(ざっくり比較)
シーン | WhisperX | Google Speech-to-Text | Amazon Transcribe |
---|---|---|---|
普通のふたり会話 | ◎ 正確に分けられる | ◎ ほぼ完璧 | ○ 時々まちがえる |
かぶり(同時に話す) | △ 少し弱い | ○ 強い | △ 弱い |
日本語 | ○ 実用レベル | ◎ 超得意 | △ 苦手ぎみ |
コスト | 無料 (自前GPUのみ) | 高い(数十円/分) | まあまあ高い |
導入のしやすさ | ◎ pip一発&トークン | △ API設定必要 | △ コンソール設定必要 |
💬 実際の出力例(WhisperX)
[
{
"start": 0.0,
"end": 3.2,
"speaker": "SPEAKER_00",
"text": "こんにちは!"
},
{
"start": 3.2,
"end": 6.0,
"speaker": "SPEAKER_01",
"text": "こんにちは、よろしくお願いします。"
}
]
Zoomの録音で話者ごとのファイルが分かれている場合は、WhisperXに話者分離をさせなくても、ファイル名で固定して処理できるので精度は完璧です。
✅ まとめ
- 話者がふたり
- 音質ふつう以上
- Zoomで分離済み
こういう状況なら、WhisperXで困ることはまずない!
今後やりたいこと|WhisperXを活かしきる理想構成とは?
ここまで使ってきて感じたのは、WhisperXは「ツールとしては完成度が高い」。でもそれだけじゃもったいない。
自分の運用環境やフローにちゃんと組み込んでこそ、真の力が発揮される。
💡 今後取り組みたいこと
✅ 1. MarkdownやJSONへの出力整形を自動化
- 出力がそのままだと長すぎる・扱いにくい
- セクションごとに分けたり、感情・テーマ別に分類して見やすくする
- 生徒の発言だけ抽出 → 「気づきログ」や「振り返りレポート」に変換
✅ 2. WhisperXをg5 Spotで定期実行するフローを作る
- 音声ファイルがアップされたら、自動でg5 Spot起動 → 処理 → 終了
- n8nやLambdaなどで「バッチ自動実行の仕組み化」して、放置運用を目指す
✅ 3. Whisper APIとWhisperXのハイブリッド運用
- 数本だけテストしたいときはAPIで素早く
- 本番・大量処理・話者分離が必要な場合はWhisperXでガッツリ
- 成果物やコストに応じて使い分けできる柔軟な設計
🌱 この構成ができたら…
- 毎回のセッションログを「意味ある形」で自動保存
- 話者・タイムライン・気づきが見えるから「振り返り」がしやすくなる
- しかも 安くて速くて正確。
WhisperXは、ただの文字起こしツールじゃない。
“記録と振り返りの自動化”という未来の入口なのかもしれません。
📝 まとめ|WhisperXは“実用とコスパ”のバランス神ツール
今回の検証・試作・発見を通して、以下のような気づきが得られました。
✅ WhisperXはここがすごい!
- 話者分離と単語単位のタイムスタンプができる
- 出力が**構造化(JSON)**されており、後処理がしやすい
- APIではなくローカル実行できるから超コスパ◎
- 話者分離済みのZoom音声との相性はバツグン
💸 Whisper APIとの比較で分かったこと
- 1時間音声でAPIは約55円/件、WhisperXは約2〜7円/件
- 月10件以上処理するならWhisperX一択
- APIは手軽だけど、継続的な運用には費用がネック
🚀 g5 Spot × WhisperXは最強の組み合わせ
- 処理速度:60分音声が3分で終わる爆速
- 料金:1件数円〜という激安運用
- 試作中も「CPU待ち」するより、Spotでサクッと回す方が安くて快適
🤖 本番環境での理想構成イメージ
- 音声アップロードでn8nがトリガー起動
- WhisperXが1件ずつ処理(ジョブキュー)
- 処理が終わったら自動でインスタンスOFF
- コーチは「アップロードするだけ」、全自動
🧠 スケール時の注意
- 複数人・大量処理になるとGPUインスタンスの並列管理が必要
- 小規模ならn8n+1台運用で十分
- 中〜大規模ならSQSやECSでのジョブ分散構成へ拡張も視野に
🎯 まとめのまとめ
WhisperXは、ただの文字起こしツールじゃない。
記録・構造化・振り返り・自動化まで含めた「会話活用の中核」です。
そしてg5 Spotを使えば、速くて安くて自由。
「コスト」「精度」「実用性」すべてをバランスよく満たす、今いちばん使える構成でした。