「WhisperをMacで使ってみよう」と思って手を動かしたものの、Pythonのインストールや依存関係でつまずいて止まってしまった――そんな経験はありませんか。先に結論を書くと、Whisperをローカルで動かしたいけれど環境構築で挫折したなら、設定不要のGUIアプリという近道があります。自前で組むのも立派な選択ですが、目的が「会議の文字起こしを手元で済ませたい」だけなら、最初から動く完成品を選ぶほうが速いこともあります。
WhisperがMacで動かない? 自前の環境構築でつまずきやすい点
Whisperは強力な音声認識モデルですが、ターミナルから自分で動かすには意外と準備が必要です。よくある詰まりどころを挙げてみます。
- Python と依存関係: Python のバージョン違い、
pipの依存解決、ffmpegの別途インストールなど。一つでも噛み合わないとエラーで止まります。 - モデルのダウンロード: どのサイズのモデルを選ぶか、どこに置くか、初回取得をどう走らせるか。日本語向けにどれを使うかも迷いどころです。
- システム音声のルーティング: Whisper自体は音声ファイルを文字に変えるだけなので、「会議の音をどう録るか」は別問題。Macではアプリの音を取り込むために BlackHole などの仮想オーディオデバイスを入れて配線する人が多く、ここが最初の関門になりがちです。
- 話者分離のトークン: 「誰が話したか」を付けたい場合、話者分離ライブラリ(pyannote 系)はモデル取得にアクセストークンが必要なことがあり、登録や同意の手順でつまずきます。
どれも乗り越えられない壁ではありませんが、合わせると数時間が溶けます。「とりあえず文字起こしがしたいだけ」の人にとっては、ここで力尽きてしまうのが現実です。
設定不要で動く仕組み(OffRecoの場合)
OffReco(オフレコ)は、この環境構築を肩代わりする完成品アプリです。上の詰まりどころが、おおむね次のように解消されます。
- Python・ffmpeg はアプリに同梱。別途インストールやバージョン合わせは不要で、ターミナルを開く必要もありません。
- 推奨モデルは自動でダウンロード。日本語の会議に向いたモデルを初回にそろえるので、どれを選ぶか悩まずに済みます(モデルの扱いはセットアップ解説を参照。日本語特化のKotoba Whisperとは何かも参考に)。
- BlackHole 等の追加設定は不要。システム音声を自前で取得する仕組みなので、仮想オーディオデバイスを入れて配線する作業がいりません。画面収録の権限も不要です。
- 録音を終了すると自動で文字起こしが始まり、話者分離まで行います。トークン登録のような手順を自分で踏む必要はありません。
しかも処理はすべてMacのなかで完結し、音声・文字起こし本文は外部に送りません。一度モデルがそろえば、機内モードでも文字起こしが動きます。実際にやることは、最初の初回ウィザードに沿って進めるだけです。
自前構築 vs 完成品アプリ
どちらが正解という話ではなく、向き不向きの問題です。
- 自前構築が向く人: モデルやパラメータを細かく調整したい、独自のパイプラインに組み込みたい、コマンドラインでバッチ処理したい――こうした自由度が必要なら、自分で組む価値は十分にあります。
- 完成品アプリが向く人: 会議が始まったら録って、終わったら文字起こしが手元にある、という体験を最短で得たい。環境構築そのものは目的ではない――それならアプリのほうが圧倒的に速いです。
つまり「自由度を取るか、手間の少なさを取るか」。用途で選べば十分です。
OffRecoの位置づけ
OffRecoは、完全ローカル・日本語に強い・全自動を一つにまとめたMac向けメニューバーアプリです。会議を自動検知してワンクリックで録音し、終了で自動文字起こし(話者分離も)まで走ります。なお要約機能はないので、要点をまとめたいときはできあがった文字起こしをChatGPTやClaudeに貼って使う運用が前提です。動作要件は macOS 14.2 以降。価格は初月無料 → 月¥200と入口を低くしてあります。
Whisperの環境構築でつまずいて止まっているなら、まずは設定不要の完成品を試してみてください。
関連記事: Macでクラウドに送らず会議を文字起こしする方法