Whisper APIはもう卒業？話者分離もできるWhisperXを爆速＆激安で回す方法

Whisper API使ってみたら…高っ！！

音声の文字起こしといえば、OpenAIのWhisper。

私も最初は、「APIでポチッと送れば高精度な文字起こしがすぐできる！」と思って、Whisper APIを使ってました。

でもある日、ふと気づいたんです。

「60分の音声1本で55円…？　え、4本で220円！？なんか高くない？」

しかも、生徒の発話が沈黙の多いタイプだったとき、不思議な文字起こしが返ってくることもありました。

（「ウンウィーン…」とか謎の単語が爆誕）

このままAPIを使い続けるのはしんどいかも。

でも、精度は落としたくない。

そんなときに見つけたのが、WhisperXという選択肢でした。

WhisperXってなにがすごいの？

WhisperXは、OpenAIのWhisperをベースに、

📍「現場で使える実用性」を大幅に強化した神アップデート版です。

🔍 何が強化されているの？

機能	Whisper（API版）	WhisperX
⏱ タイムスタンプ	文単位	✅ 単語ごとに秒数が出る！
👥 話者分離	❌ なし	✅ 誰がしゃべったかがわかる！
🎧 精度調整	できない	✅ オプションで細かく調整可能
💾 出力形式	プレーンテキスト	✅ JSON（構造化）で扱いやすい
💸 実行場所	API経由のみ	✅ ローカルでもクラウドでもOK

💡 実際どう便利か？

例えばコーチングセッションの録音を処理する場合👇

「この気づき発言、どのタイミングで出たんだっけ？」
「生徒とコーチの発話、どう分けて記録しよう？」
「意味のある会話だけログに残したい！」

こういった実務ニーズに、WhisperXは直接応えてくれます。

Whisper APIだけではどうしても難しかった

高精度なタイムライン構築
話者の区別
セッション全体の構造把握

が、これひとつで全部できちゃうのです。

試して分かった！

「話者分離もできて、ローカルで動かせて、コスパも良い」って聞いて、

「なんかすごそうだけど、どうせ重たいんでしょ？」

って思ってました。正直。

でも実際に試してみたら…

g5 Spotインスタンスで爆速・爆安！
WhisperX、想像の3倍ぐらいサクサクでした。

🧪 試して分かったことまとめ

試したこと	結果	コメント
`medium`モデルをCPUで回す	✅ 動く！けどちょっと遅い	試作段階ならギリOK（5分音声で10分くらい）
g4dnで回す	◯ まあまあ速い	でもコスト的に微妙。g5の方が安いという逆転現象あり
g5 Spotで回す	💥 超速！超安！	60分音声が3分で終わって、1件あたり約2〜7円とか。神。
Zoomで話者分離してある音声で使う	🎯 精度バッチリ	話者判定いらないので高速＆正確！超向いてる

💡 特に驚いたのが…

g5 Spot（GPUインスタンス）の方が、g4より安くて速いという事実。

g4dn：1時間あたり約100円
g5 Spot：1時間あたり20〜50円で使えることも
なのに処理速度は2〜3倍速い

💡補足：g4dn？g5 Spot？ってなに？

WhisperXをローカルやクラウドで使う場合、GPU（画像処理用の高性能な計算機）を使うと処理が爆速になります。

AWS（アマゾンが提供しているクラウドサービス）では、GPUが使えるインスタンスとしてこんな種類があります👇

名前	中身	特徴
g4dn.xlarge	NVIDIA T4（旧世代GPU）	コスパはまあまあ。Whisperも動くけど処理がちょっと遅め
g5.xlarge	NVIDIA A10G（新世代GPU）	2〜3倍速いのに、Spotならg4より安い！超コスパ◎

💸 Spotインスタンスってなに？

AWSが「今あいてるマシン、余ってるから安く貸すよ〜」という制度です。

⚠ ただし、急に終了されることがあるため、本番よりも「バッチ処理や試作」に向いています。

通常の価格（オンデマンド）より最大90%オフ
g5.xlargeのSpotだと1時間あたり20〜50円程度で使えることも

※この1時間というのはGPUの起動時間のことで、音声の時間じゃありません。

🎧 つまり…

例えば👇

WhisperXで「60分の音声」を処理したとしても、処理が3分で終われば、課金されるのはその3分だけ！

なので、

g5 Spotの単価が¥30/1時間（=60分）だとして
WhisperXが60分の音声を 3分で処理したら、

¥30 × (3 ÷ 60) = ¥1.5（たったの1円ちょっと！）

※Spotは最低60秒の課金あり

💡 よくある誤解との違い

誤解	正確な理解
「1時間の音声処理＝1時間分の料金がかかる」	❌ 違います！
「料金は音声の長さで決まる」	❌ Whisper APIはそうだけど、WhisperXは違う！
✅ 「WhisperX（ローカル）は処理にかかった時間だけが料金になる」	🎯 その通り！

Whisper APIとの費用比較

Whisper APIは、簡単に高精度な文字起こしができる便利なサービスですが…

実際に何本も音声を処理するとなると、費用がどんどん積み上がっていきます。

💸 たとえば、こんな感じ

音声の長さ	Whisper API	WhisperX（g5 Spot）
60分 × 1本	約 ¥55	約 ¥2〜7
60分 × 4本	約 ¥220	約 ¥25
60分 × 30本	約 ¥1,650	約 ¥150（← 1/10以下！）

APIだと「送るだけで楽」なのは確かなんですが、

セキュリティ的に音声をクラウドに送る必要がある
音声の無音部分にも課金される
単価は安く見えても大量処理だとかなり高くなる

一方、WhisperX（ローカル実行）なら👇

音声ファイルは自分の環境で完結
GPUの使用時間だけが課金対象
処理が早いほどコストも減る（Spotなら超激安）

コスパの結論

Whisper API → 手軽だけど、たくさん処理するならコスパ最悪

WhisperX → セットアップ少し手間。でも10倍以上の節約になる。しかも精度も高い！

話者分離の精度って実際どうなの？

「話者分離ってどのくらい正確なの？」

これは、私も最初にめちゃくちゃ気になったポイントでした。

結論から言うと…

WhisperXの話者分離は、Zoomの録音やふたり会話なら実用レベルで問題なし！
※3人以上や交互でない会話は△
精度も処理スピードも優秀。
Googleと比べればやや劣るけど、無料でこの性能はすごすぎる。

🔍 実際に比べてみた感覚（ざっくり比較）

シーン	WhisperX	Google Speech-to-Text	Amazon Transcribe
普通のふたり会話	◎ 正確に分けられる	◎ ほぼ完璧	○ 時々まちがえる
かぶり（同時に話す）	△ 少し弱い	○ 強い	△ 弱い
日本語	○ 実用レベル	◎ 超得意	△ 苦手ぎみ
コスト	無料（自前GPUのみ）	高い（数十円/分）	まあまあ高い
導入のしやすさ	◎ pip一発＆トークン	△ API設定必要	△ コンソール設定必要

💬 実際の出力例（WhisperX）

[
  {
    "start": 0.0,
    "end": 3.2,
    "speaker": "SPEAKER_00",
    "text": "こんにちは！"
  },
  {
    "start": 3.2,
    "end": 6.0,
    "speaker": "SPEAKER_01",
    "text": "こんにちは、よろしくお願いします。"
  }
]

Zoomの録音で話者ごとのファイルが分かれている場合は、WhisperXに話者分離をさせなくても、ファイル名で固定して処理できるので精度は完璧です。

✅ まとめ

話者がふたり
音質ふつう以上
Zoomで分離済み

こういう状況なら、WhisperXで困ることはまずない！

今後やりたいこと｜WhisperXを活かしきる理想構成とは？

ここまで使ってきて感じたのは、WhisperXは「ツールとしては完成度が高い」。でもそれだけじゃもったいない。

自分の運用環境やフローにちゃんと組み込んでこそ、真の力が発揮される。

💡 今後取り組みたいこと

✅ 1. MarkdownやJSONへの出力整形を自動化

出力がそのままだと長すぎる・扱いにくい
セクションごとに分けたり、感情・テーマ別に分類して見やすくする
生徒の発言だけ抽出 → 「気づきログ」や「振り返りレポート」に変換

✅ 2. WhisperXをg5 Spotで定期実行するフローを作る

音声ファイルがアップされたら、自動でg5 Spot起動 → 処理 → 終了
n8nやLambdaなどで「バッチ自動実行の仕組み化」して、放置運用を目指す

✅ 3. Whisper APIとWhisperXのハイブリッド運用

数本だけテストしたいときはAPIで素早く
本番・大量処理・話者分離が必要な場合はWhisperXでガッツリ
成果物やコストに応じて使い分けできる柔軟な設計

🌱 この構成ができたら…

毎回のセッションログを「意味ある形」で自動保存
話者・タイムライン・気づきが見えるから「振り返り」がしやすくなる
しかも 安くて速くて正確。

WhisperXは、ただの文字起こしツールじゃない。

“記録と振り返りの自動化”という未来の入口なのかもしれません。

📝 まとめ｜WhisperXは“実用とコスパ”のバランス神ツール

今回の検証・試作・発見を通して、以下のような気づきが得られました。

✅ WhisperXはここがすごい！

話者分離と単語単位のタイムスタンプができる
出力が**構造化（JSON）**されており、後処理がしやすい
APIではなくローカル実行できるから超コスパ◎
話者分離済みのZoom音声との相性はバツグン

💸 Whisper APIとの比較で分かったこと

1時間音声でAPIは約55円／件、WhisperXは約2〜7円／件
月10件以上処理するならWhisperX一択
APIは手軽だけど、継続的な運用には費用がネック

🚀 g5 Spot × WhisperXは最強の組み合わせ

処理速度：60分音声が3分で終わる爆速
料金：1件数円〜という激安運用
試作中も「CPU待ち」するより、Spotでサクッと回す方が安くて快適

🤖 本番環境での理想構成イメージ

音声アップロードでn8nがトリガー起動
WhisperXが1件ずつ処理（ジョブキュー）
処理が終わったら自動でインスタンスOFF
コーチは「アップロードするだけ」、全自動

🧠 スケール時の注意

複数人・大量処理になるとGPUインスタンスの並列管理が必要
小規模ならn8n＋1台運用で十分
中〜大規模ならSQSやECSでのジョブ分散構成へ拡張も視野に

🎯 まとめのまとめ

WhisperXは、ただの文字起こしツールじゃない。

記録・構造化・振り返り・自動化まで含めた「会話活用の中核」です。

そしてg5 Spotを使えば、速くて安くて自由。

「コスト」「精度」「実用性」すべてをバランスよく満たす、今いちばん使える構成でした。