📚 つくる力の育て方

Whisper APIはもう卒業?話者分離もできるWhisperXを爆速&激安で回す方法

Whisper APIはもう卒業?話者分離もできるWhisperXを爆速&激安で回す方法

Whisper API使ってみたら…高っ!!

音声の文字起こしといえば、OpenAIのWhisper。

私も最初は、「APIでポチッと送れば高精度な文字起こしがすぐできる!」と思って、Whisper APIを使ってました。

でもある日、ふと気づいたんです。

「60分の音声1本で55円…? え、4本で220円!?なんか高くない?」

しかも、生徒の発話が沈黙の多いタイプだったとき、不思議な文字起こしが返ってくることもありました。

(「ウンウィーン…」とか謎の単語が爆誕)

このままAPIを使い続けるのはしんどいかも。

でも、精度は落としたくない。

そんなときに見つけたのが、WhisperXという選択肢でした。

WhisperXってなにがすごいの?

WhisperXは、OpenAIのWhisperをベースに、

📍「現場で使える実用性」を大幅に強化した神アップデート版です。

🔍 何が強化されているの?

機能Whisper(API版)WhisperX
⏱ タイムスタンプ文単位単語ごとに秒数が出る!
👥 話者分離❌ なし誰がしゃべったかがわかる!
🎧 精度調整できない✅ オプションで細かく調整可能
💾 出力形式プレーンテキスト✅ JSON(構造化)で扱いやすい
💸 実行場所API経由のみローカルでもクラウドでもOK

💡 実際どう便利か?

例えばコーチングセッションの録音を処理する場合👇

  • 「この気づき発言、どのタイミングで出たんだっけ?」
  • 「生徒とコーチの発話、どう分けて記録しよう?」
  • 「意味のある会話だけログに残したい!」

こういった実務ニーズに、WhisperXは直接応えてくれます。

Whisper APIだけではどうしても難しかった

  • 高精度なタイムライン構築
  • 話者の区別
  • セッション全体の構造把握

が、これひとつで全部できちゃうのです。

試して分かった!

「話者分離もできて、ローカルで動かせて、コスパも良い」って聞いて、

「なんかすごそうだけど、どうせ重たいんでしょ?」

って思ってました。正直。

でも実際に試してみたら…

g5 Spotインスタンスで爆速・爆安!
WhisperX、想像の3倍ぐらいサクサクでした。

🧪 試して分かったことまとめ

試したこと結果コメント
mediumモデルをCPUで回す✅ 動く!けどちょっと遅い試作段階ならギリOK(5分音声で10分くらい)
g4dnで回す◯ まあまあ速いでもコスト的に微妙。g5の方が安いという逆転現象あり
g5 Spotで回す💥 超速!超安!60分音声が3分で終わって、1件あたり約2〜7円とか。神。
Zoomで話者分離してある音声で使う🎯 精度バッチリ話者判定いらないので高速&正確!超向いてる

💡 特に驚いたのが…

g5 Spot(GPUインスタンス)の方が、g4より安くて速いという事実。

  • g4dn:1時間あたり約100円
  • g5 Spot:1時間あたり20〜50円で使えることも
  • なのに処理速度は2〜3倍速い

💡補足:g4dn?g5 Spot?ってなに?

WhisperXをローカルやクラウドで使う場合、GPU(画像処理用の高性能な計算機)を使うと処理が爆速になります。

AWS(アマゾンが提供しているクラウドサービス)では、GPUが使えるインスタンスとしてこんな種類があります👇

名前中身特徴
g4dn.xlargeNVIDIA T4(旧世代GPU)コスパはまあまあ。Whisperも動くけど処理がちょっと遅め
g5.xlargeNVIDIA A10G(新世代GPU)2〜3倍速いのに、Spotならg4より安い!超コスパ◎

💸 Spotインスタンスってなに?

AWSが「今あいてるマシン、余ってるから安く貸すよ〜」という制度です。

⚠ ただし、急に終了されることがあるため、本番よりも「バッチ処理や試作」に向いています。

  • 通常の価格(オンデマンド)より最大90%オフ
  • g5.xlargeのSpotだと1時間あたり20〜50円程度で使えることも

※この1時間というのはGPUの起動時間のことで、音声の時間じゃありません。

🎧 つまり…

例えば👇

WhisperXで「60分の音声」を処理したとしても、処理が3分で終われば、課金されるのはその3分だけ!

なので、

  • g5 Spotの単価が¥30/1時間(=60分)だとして
  • WhisperXが60分の音声を 3分で処理したら、

¥30 × (3 ÷ 60) = ¥1.5(たったの1円ちょっと!)

※Spotは最低60秒の課金あり

💡 よくある誤解との違い

誤解正確な理解
「1時間の音声処理=1時間分の料金がかかる」❌ 違います!
「料金は音声の長さで決まる」❌ Whisper APIはそうだけど、WhisperXは違う!
✅ 「WhisperX(ローカル)は処理にかかった時間だけが料金になる」🎯 その通り!

Whisper APIとの費用比較

Whisper APIは、簡単に高精度な文字起こしができる便利なサービスですが…

実際に何本も音声を処理するとなると、費用がどんどん積み上がっていきます。

💸 たとえば、こんな感じ

音声の長さWhisper APIWhisperX(g5 Spot)
60分 × 1本約 ¥55約 ¥2〜7
60分 × 4本約 ¥220約 ¥25
60分 × 30本約 ¥1,650約 ¥150(← 1/10以下!)

APIだと「送るだけで楽」なのは確かなんですが、

  • セキュリティ的に音声をクラウドに送る必要がある
  • 音声の無音部分にも課金される
  • 単価は安く見えても大量処理だとかなり高くなる

一方、WhisperX(ローカル実行)なら👇

  • 音声ファイルは自分の環境で完結
  • GPUの使用時間だけが課金対象
  • 処理が早いほどコストも減る(Spotなら超激安)

コスパの結論

Whisper API → 手軽だけど、たくさん処理するならコスパ最悪

WhisperX → セットアップ少し手間。でも10倍以上の節約になる。しかも精度も高い!

話者分離の精度って実際どうなの?

「話者分離ってどのくらい正確なの?」

これは、私も最初にめちゃくちゃ気になったポイントでした。

結論から言うと…

  • WhisperXの話者分離は、Zoomの録音やふたり会話なら実用レベルで問題なし
    ※3人以上や交互でない会話は△
  • 精度も処理スピードも優秀。
  • Googleと比べればやや劣るけど、無料でこの性能はすごすぎる

🔍 実際に比べてみた感覚(ざっくり比較)

シーンWhisperXGoogle Speech-to-TextAmazon Transcribe
普通のふたり会話◎ 正確に分けられる◎ ほぼ完璧○ 時々まちがえる
かぶり(同時に話す)△ 少し弱い○ 強い△ 弱い
日本語○ 実用レベル◎ 超得意△ 苦手ぎみ
コスト無料
(自前GPUのみ)
高い(数十円/分)まあまあ高い
導入のしやすさ◎ pip一発&トークン△ API設定必要△ コンソール設定必要

💬 実際の出力例(WhisperX)

[
  {
    "start": 0.0,
    "end": 3.2,
    "speaker": "SPEAKER_00",
    "text": "こんにちは!"
  },
  {
    "start": 3.2,
    "end": 6.0,
    "speaker": "SPEAKER_01",
    "text": "こんにちは、よろしくお願いします。"
  }
]

Zoomの録音で話者ごとのファイルが分かれている場合は、WhisperXに話者分離をさせなくても、ファイル名で固定して処理できるので精度は完璧です。

まとめ

  • 話者がふたり
  • 音質ふつう以上
  • Zoomで分離済み

こういう状況なら、WhisperXで困ることはまずない!

今後やりたいこと|WhisperXを活かしきる理想構成とは?

ここまで使ってきて感じたのは、WhisperXは「ツールとしては完成度が高い」。でもそれだけじゃもったいない。

自分の運用環境やフローにちゃんと組み込んでこそ、真の力が発揮される。

💡 今後取り組みたいこと

✅ 1. MarkdownやJSONへの出力整形を自動化

  • 出力がそのままだと長すぎる・扱いにくい
  • セクションごとに分けたり、感情・テーマ別に分類して見やすくする
  • 生徒の発言だけ抽出 → 「気づきログ」や「振り返りレポート」に変換

✅ 2. WhisperXをg5 Spotで定期実行するフローを作る

  • 音声ファイルがアップされたら、自動でg5 Spot起動 → 処理 → 終了
  • n8nやLambdaなどで「バッチ自動実行の仕組み化」して、放置運用を目指す

✅ 3. Whisper APIとWhisperXのハイブリッド運用

  • 数本だけテストしたいときはAPIで素早く
  • 本番・大量処理・話者分離が必要な場合はWhisperXでガッツリ
  • 成果物やコストに応じて使い分けできる柔軟な設計

🌱 この構成ができたら…

  • 毎回のセッションログを「意味ある形」で自動保存
  • 話者・タイムライン・気づきが見えるから「振り返り」がしやすくなる
  • しかも 安くて速くて正確。

WhisperXは、ただの文字起こしツールじゃない。

“記録と振り返りの自動化”という未来の入口なのかもしれません。

📝 まとめ|WhisperXは“実用とコスパ”のバランス神ツール

今回の検証・試作・発見を通して、以下のような気づきが得られました。

WhisperXはここがすごい!

  • 話者分離単語単位のタイムスタンプができる
  • 出力が**構造化(JSON)**されており、後処理がしやすい
  • APIではなくローカル実行できるから超コスパ◎
  • 話者分離済みのZoom音声との相性はバツグン

💸 Whisper APIとの比較で分かったこと

  • 1時間音声でAPIは約55円/件WhisperXは約2〜7円/件
  • 月10件以上処理するならWhisperX一択
  • APIは手軽だけど、継続的な運用には費用がネック

🚀 g5 Spot × WhisperXは最強の組み合わせ

  • 処理速度:60分音声が3分で終わる爆速
  • 料金:1件数円〜という激安運用
  • 試作中も「CPU待ち」するより、Spotでサクッと回す方が安くて快適

🤖 本番環境での理想構成イメージ

  • 音声アップロードでn8nがトリガー起動
  • WhisperXが1件ずつ処理(ジョブキュー)
  • 処理が終わったら自動でインスタンスOFF
  • コーチは「アップロードするだけ」、全自動

🧠 スケール時の注意

  • 複数人・大量処理になるとGPUインスタンスの並列管理が必要
  • 小規模ならn8n+1台運用で十分
  • 中〜大規模ならSQSやECSでのジョブ分散構成へ拡張も視野に

🎯 まとめのまとめ

WhisperXは、ただの文字起こしツールじゃない。

記録・構造化・振り返り・自動化まで含めた「会話活用の中核」です。

そしてg5 Spotを使えば、速くて安くて自由

「コスト」「精度」「実用性」すべてをバランスよく満たす、今いちばん使える構成でした。

  • この記事を書いた人

SHIRAN

「コードは知らない。でも作れる。」AIとツールで便利を生む非エンジニア。挫折も経験しながら、今は作る楽しさを発信中。詳しくはこちら

-📚 つくる力の育て方
-, ,