🧪 開発・試作メモ

第2回|文字起こし②:録音ファイルをポイッと、Whisperで文字起こし!

第2回|文字起こし②:録音ファイルをポイッと、Whisperで文字起こし!

こんにちは、SHIRAN.CODERです。

前回の記事では、ColabとWhisperの準備をコツコツ整えてきました。

モデルもちゃんと入った。Colabも開いた。もう準備はバッチリ。

で、今こう思ってません?

「で?いつになったら文字起こしできるんですか?」と。

はい、お待たせしました。

今回は、ついにその“ポイッとフェーズ”に突入します!

やることは超シンプル。録音ファイルをアップして、Whisperに渡して、結果を見る。

まるで電子レンジ。材料を入れて、チンしたら、テキストができあがる。そんな感じ(知らんけど)。

「やってみたいけど難しそう…」と思っていた人も、今回は安心の一本道です。

ポチポチ実行していくだけで、あなたの音声が文字になる瞬間が見られます。

さあ、いってみましょう!

🎯 この回でやること

このページでやることは、たった1つ。

🎧 録音ファイルをアップロードして、文字起こしする!

細かい設定や難しい話は抜きにして、とにかく「音声 → テキスト」に変えることだけに集中します。

最短ルートで、Whisperを動かしてテキストを出すところまでやってみましょう!

この回を終えたら、あなたの手元にはセッションの全文テキストが残っているはずです✨

🧰 事前に準備しておくもの

この手順では、いきなり文字起こしからスタートできるわけではありません。

以下の準備ができているか、軽くチェックしておきましょう!

✅ 1. Google Colab の使い方(ざっくりでOK)

Colabって何?どうやって使うの?という方は、まずこちらを先にチェックしてください👇
🔗 Colabの使い方まとめ(別記事)

2. 音声ファイル(.mp3 または .wav)

今回使うのは「録音済みの音声ファイル」です。

スマホで録った .m4a なども、形式を変えればOKですが、今回は .mp3.wav で用意しておくのがおすすめです。

🎵 ファイル名は「session1.mp3」のようにシンプルな英数字だけが安心!

3. Whisperの準備が済んだColabノートブック

前回の記事でWhisperのインストールとモデルの準備が済んでいればOKです。

「え、やったっけ…?」という方は、こちらから復習しておきましょう👇
🔗 第1回:Whisperの準備編

この3つがそろっていれば、もう文字起こしは目前!

あとは、ファイルをアップしてコードをポチッとするだけです💪✨

📁 ステップ1:音声ファイルをColabにアップロードする

まずは、録音した音声ファイルをColabにアップロードしましょう。

といっても、やることはたった1行のコードを実行するだけです。

このコードを実行!

from google.colab import files
uploaded = files.upload()

実行すると、パソコンのファイル選択ウィンドウが出てくるので、使いたい音声ファイル(例:session1.mp3)を選べばOK!

📝 アップロード時の注意ポイント

  • ファイル名は「英数字のみ」でシンプルに!
     例:session1.mp3audio_test.wav など
     → 日本語やスペースが入るとエラーの原因になることがあります。
  • 複数ファイルは選ばないでね!
     今回は「1つのファイルを文字起こしする」手順なので、まずは1本だけで進めましょう。
  • ファイル形式は .mp3 または .wav
     もし .m4a.aac などの場合は、事前に変換しておきましょう。
     🎧 ちなみにGPTくんに「これMP3に変えたい」って頼むと、やり方教えてくれます。便利。

アップロードが完了すると、Colabの下の方に ファイル名.mp3 という名前が表示されます。

それが正しくアップされた印なので、次のステップに進んでOKです!

簡単にファイル形式を変換する方法

GPTに頼めばOK!音声ファイルを渡して「この音声ファイルをMP3にして」って言えばすぐにやってくれます。是非、試してみてね

✨ ステップ2:Whisperで文字起こししてみよう!

音声ファイルがColabにアップロードできたら、いよいよWhisperに文字起こししてもらう番です

やることはこれまたシンプル。

以下のコードをそのまま実行するだけでOKです👇

import whisper

# Whisperモデルを読み込み
model = whisper.load_model("small")  

# ファイル名はアップしたものに合わせてね
result = model.transcribe("session1.mp3")  

# 結果(文字起こし)を表示
print(result["text"])  

# 🔑 ここでファイルに保存する!
with open("/content/whisper_result.txt", "w") as f:
    f.write(result["text"])

📝 コードの中身、ざっくり解説

whisper.load_model("small")
Whisperの「small」モデルを読み込みます。初心者はまずこれでOK!

model.transcribe("session1.mp3")
アップロードした音声ファイルを渡して文字起こしを実行します。※ここは自分がアップしたファイル名に変えてくださいね!

print(result["text"])
文字起こしされたテキストが、Colabの下の出力欄にズラ〜っと表示されます。

💡 モデルって変えられるの?

はい、実は "small" のところは他にも "medium""large" などに変更できます。

ただし、モデルが大きくなるほど精度は上がるけど時間がかかるので、まずは "small" で十分です◎

これで文字起こしは完了です!

次は出力されたテキストをちゃんと確認していきましょう✍️

🔍 ステップ3:出力された文字を確認しよう

print(result["text"]) の行まで実行できたら、いよいよWhisperくんの成果発表タイムです!

Colabのコードセルの下に、音声をテキスト化した結果がズラ〜ッと表示されているはず。

テキストが出ていれば成功!

まずは素直に読み進めてみてください。

ところどころ間違いがあっても大丈夫。それでもちゃんと日本語の文章が並んでいれば成功です!

🧠 「これ合ってるのかな…?」と思ったら

  • 明らかに違う単語が入ってても、最初は気にしすぎなくてOK!
  • 特に早口・かぶり・雑音があると、ちょいちょいおかしくなります。
  • ちゃんと話の流れが読み取れるなら、十分実用レベルです◎

🛠 ヒント:文字が出ない/エラーが出たときは?

  • ファイル名が間違っていないかをチェック!
  • そもそもファイルをアップロードし忘れていないかも確認!
  • 日本語じゃなく英語で出てきたら、音声がうまく認識されなかった可能性も。

そんなときは、GPTくんに「このエラーって何?」と聞くのもおすすめです😉

(※聞くときはエラーのスクショをとって、その画像をGPT君に渡してあげるだけでOKだよ。)

これで今回のゴールは達成です!

🎉 セッション音声が、無事にテキストになりました!

🔍 ステップ4:文字起こし結果をGPTでキレイにする

文字起こしが終わったら、ちょっとだけお手入れしておきましょう。

Whisperくんはとっても優秀だけど、たま〜に謎ワードや誤字が混ざることがあります。

そのまま要点抽出をすると、「発音録音」のことを「初音6音? 」何それ?

みたいな意味不明ワードが生成されてしまいます。

なので、ここで ChatGPTに「誤字を直して!」とお願いして、テキストをキレイに整えます

💡 やることは3ステップだけ

  • 文字起こし結果ファイルを開く
  • GPTに「誤字を直して」と投げる
  • 修正文を新しいファイルに保存する

これだけでOKです!

ここでは、その整形を実際にやってみましょう!

Whisperで文字起こししただけでは、ちょっと誤字や謎ワードが混ざります。

どれくらい変わるの?という検証は👇でがっつり紹介しているので、
「ほんとにいる?」と思った人はぜひ読んでみてください!

🔗 Whisperの文字起こしは完璧じゃない!GPTで整形したら“人間味”が爆誕した話

⚠️ この記事では、非エンジニアの方でも体験できるように、最低限のプロンプト例だけを載せています。実際の運用では、より高品質化した最適プロンプト&自動化フローを使用しています!詳しく知りたい方はお気軽にご相談ください 。

🧩 コード例

ChatGPTのAPIキーをセットしないとコードエラーが起きちゃいます。まだの人は下記の記事で取得してセットしてから進めていってね!→ 🔗

以下のコードをコピーして、Colabに貼り付けてください👇

# まずOpenAIクライアントを用意する
from openai import OpenAI

client = OpenAI()

# 文字起こし結果をGPTでキレイにする

# Whisperの文字起こし結果を読み込む
with open("/content/whisper_result.txt", "r") as f:
    original_text = f.read()

# ChatGPTにお願いして誤字を修正してもらう
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "system",
            "content": "あなたは優秀な校正者です。以下の日本語テキストの誤字脱字を自然に直し、会話として意味が途切れないように、読みやすいまとまりで改行してください。不自然に細かく分けすぎないでください。"
        },
        {
            "role": "user",
            "content": original_text
        }
    ]
)

# GPTが修正したテキストを取得
fixed_text = response.choices[0].message.content

# 修正文を session_transcript.txt に保存
with open("/content/session_transcript.txt", "w") as f:
    f.write(fixed_text)

print("✅ 修正文を保存しました! → session_transcript.txt")

これで準備バッチリ!

これで、誤字なしの キレイなテキストsession_transcript.txt に保存されました!
次のステップでそのまま使えます✨

🔍 ステップ5:文字起こし結果をテキストファイルとして保存しよう!

文字起こしが終わって、「おお~!ちゃんと文字にできてる!」と喜んだそこのあなた。

このあと要点抽出や分析に進むために、今 Colab に保存した session_transcript.txt自分のパソコンにもダウンロードしておきましょう!

💾 パソコンにダウンロードしておこう!

以下を実行してください👇

# パソコンにダウンロード
from google.colab import files
files.download("session_transcript.txt")

実行すると、ブラウザの下に「session_transcript.txt のダウンロード」が始まるはずです。

これで安心して、次の「要点抽出編」へ進めます🙆‍♀️

🚧 よくあるエラーと対策(あると安心)

FileNotFoundError
ファイル名が間違っている or アップロードされてない可能性大。拡張子まで含めて正しく書けているか確認を!

UnicodeDecodeError
音声ファイルじゃないファイル(たとえば .txt など)を指定してないか確認。音声形式(.mp3.wav)に限定しましょう

CUDA out of memoryno GPU の表示
GPUが使えない状態。Colabの「ランタイム」→「ランタイムのタイプを変更」→「ハードウェア アクセラレータ」を「GPU」に設定してみてください。

文字が英語で出てくる / 聞き取れてない👇
音声がこもっている/雑音が多すぎる/モデルの性能不足などが原因かも。"smal""medium""large"に変えるのも手です(ただし実行時間は長くなります)

💡 それでもうまくいかないときは、そのままエラーメッセージをコピペしてGPTくんに聞いてみるのが最強です。

「このエラーってどういう意味?」って聞けば、たいてい何とかしてくれます◎

✅ 次回はこちら!

Whisperで文字起こしして、GPTでキレイに整形するところまで完了しました!

ここまでできたあなた、もうほぼAI秘書マスターです✨

次回はいよいよ、この整形済みテキストを使ってGPTに要点を抜き出してもらう実践編 に進みます!

「議事録まとめが秒で終わるってこういうことか!」を体感しに行きましょう👇

🔗 関連リンク|AI秘書ツール制作シリーズ

💡 迷ったらこちらも

  • この記事を書いた人

SHIRAN

「コードは知らない。でも作れる。」AIとツールで便利を生む非エンジニア。挫折も経験しながら、今は作る楽しさを発信中。詳しくはこちら

-🧪 開発・試作メモ
-, ,