Engineering

Whisper+LLM連携音声入力システム Windows Whisper

Windows Whisper入門:Ctrl+Spaceで音声をサクッと文字起こし(Windows向け)

こんにちは。今回は Windows 10/11 で使える音声文字起こしアプリ Windows Whisper を紹介します。
「会議メモ」「アイデア出し」「文章の下書き」を、できるだけ手数少なくやりたい人向けです。

ダウンロード

https://s.satorifactory.jp/windowswhisper/WindowsWhisper-3.0.0-Setup.zip

Windows Whisperって何?

Windows Whisper は、ショートカットキーで録音して、そのまま文字にして“任意のアプリに”へ流し込むためのアプリです。Chatgptなど音声で文字入力できるものもありますが、vscodeなどできないものも多いので重宝します。LLMと連携することでメールもかけます。

  • Ctrl+Space で録音開始/停止
  • 文字起こし結果を 自動でクリップボードにコピー(初期値はOFFですが、ONにしといたほうがいいかも。)
  • 必要なら アクティブなウィンドウへ自動貼り付け
  • OpenAI/Groq/Azure/OpenRouter/ローカル/オフライン(whisper.cpp)など、複数方式を切り替え可能
  • さらに LLM連携 で、翻訳・要約・整形など「文脈に合わせた出力」もできる(任意)

できること(ざっくり)

  • グローバルホットキーで、どのアプリの上でも録音スタート
  • 録音中はオーバーレイで状態や波形が見える
  • 結果はコピー&貼り付けまで自動化できる
  • LLM連携で、翻訳や要約、整形など「文脈に合わせた出力」にできる(任意)
  • カスタム辞書で専門用語の表記ゆれを減らせる
  • オフラインモードなら、APIキー不要でローカル処理できる(初回はモデルDLが必要)

こんな人におすすめ

  • キーボード入力がしんどい日がある
  • チャットやメモに「今話した内容」をすぐ流し込みたい
  • API課金を抑えたい or オフラインで動かしたい
  • 社外に音声を出したくない(or 送信先を自分で選びたい)
  • 「録音→ファイル→アップロード」みたいな手間をなくしたい

初回セットアップ(ここだけやればOK)

初回起動時はウィザードでサクッと設定します。

  • 使うプロバイダーを選ぶ(例:OpenAI / Groq / オフライン)
  • APIキーが必要なら入力(オフラインは不要)
  • 接続テスト

オフラインを選ぶと、whisper.cpp本体とモデルが必要です。
初回だけダウンロードが走ります(モデルは tiny/base/small/... みたいにサイズが違います)。

使い方

  1. Ctrl+Space:録音開始
  2. しゃべる
  3. Ctrl+Space:録音停止 → 文字起こし開始
  4. 終わったら、結果がクリップボードに入り、必要なら自動で貼り付けされます

録音中にキャンセルしたいときは ESC

LLM連携(翻訳・要約・整形)

Windows Whisper は、音声をWhisperで文字にしたあと、LLMで翻訳などの後処理することもできます。

やれることの例:

  • 翻訳:日本語で話した内容を英語に直す
  • 整形:箇条書き・議事録っぽく整える。文脈を捉えてくれるので適当に話しても正しく変換してくれることが多い。
  • 要約:長めに話した内容を短くまとめる
  • 文脈補完:言い直しや言い淀みを整えて読みやすくする

ポイントは「音声認識の精度を上げる」というより、出力の形を目的に合わせて変換します。

※ LLMを使う場合は別途APIキーが必要で、追加の待ち時間/コストが発生します。

セキュリティ/プライバシー的にうれしいところ

このアプリのポイントは、「どこに音声を出すか」や「どこまでローカルで完結させるか」を選べるところです。

  • オフライン(whisper.cpp):音声が外部に送られず、ローカルで完結できます(初回はモデルDLが必要)
  • 自分のAPI/ローカルサーバー:OpenAI互換のエンドポイントを自前で立てて、そこに投げる運用も可能です
  • LLM後処理も任意:翻訳や整形は便利だけど、不要ならオフにして“文字起こしだけ”にもできます

注意点として、オンラインのプロバイダーを選んだ場合は音声データが送信されます。
用途に応じて「オンライン/オフライン/自前」を切り替えられるのが強みです。

便利な設定

  • 自動貼り付け:チャット欄やエディタにそのまま流し込みたいならON
  • クリップボード自動コピー:貼り付けは自分でやりたいならONだけでも便利
  • 言語:日本語固定 or auto(自動判定)
  • (Whisper用)プロンプト:固有名詞が多いときに少し効くことがある
  • (LLM用)プロンプト:翻訳/要約/整形などの指示(プリセットを選ぶ想定)
  • カスタム辞書:よく間違える単語を置換して後処理

辞書の例(置換前 -> 置換後):

ウィスパー -> Windows Whisper
じーぴーてぃー -> ChatGPT

よくあるハマりどころ

  • ホットキーが反応しない
  • – すでに別アプリが同じホットキーを使っている可能性があります – 設定でホットキーを変更してみてください
  • 管理者権限で動いているアプリ相手だと挙動が変
  • – Windowsの仕様で、入力やフック系は権限の影響を受けます
  • オフラインが遅い/重い
  • – モデルが大きいほど精度は上がりがちですが、重くなります – まずは base あたりから試すのがおすすめです

設定ファイルの場所

  • 設定:%APPDATA%\WindowsWhisper\config.json
  • 辞書:%APPDATA%\WindowsWhisper\dictionary.txt
  • ログ:%TEMP%\whisper_app.log
  • オフラインモデル:%APPDATA%\WindowsWhisper\models\

まとめ

Windows Whisper は「録音して文字起こし」だけじゃなく、結果をすぐ使えるところ(コピー/貼り付け)まで含めてショートカット化したアプリです。
さらに、オフライン/自前API/LLM を選べるので、用途に合わせて「便利さ」と「プライバシー」を両立できます。

  • まずは Ctrl+Space で1回使ってみる
  • 便利だと思ったら「自動貼り付け」と「辞書」を育てる
  • APIが気になるならオフラインも試す

この3ステップで、日常の入力がだいぶラクになります。

関連記事

コメント

この記事へのコメントはありません。

TOP