日本語の会議で「文字起こしの精度が高い」ツールを探しているなら、結論はシンプルです。汎用のWhisperより、日本語に特化したモデルを選ぶほうが有利になりやすい。OffReco(オフレコ)は、その日本語特化モデルである Kotoba Whisper を、クラウドに送らず完全ローカルで動かせるMac向けアプリです。この記事では、日本語の文字起こしがなぜ難しいのか、Kotoba Whisperとは何か、そして精度を上げるコツを順に整理します。
なぜ日本語の文字起こしは難しいのか
英語に比べて、日本語の音声認識にはいくつか固有の難しさがあります。
- 同音異義語が多い: 「機械/機会」「公正/構成」のように、音は同じでも意味と漢字が違う語が大量にあります。前後の文脈を踏まえないと正しい表記を選べません。
- 固有名詞・専門用語: 社名やプロダクト名、社内用語は辞書に載っていないことが多く、誤変換が起きやすいポイントです。
- 話し言葉の崩れ: 「えっと」「〜じゃないですか」のような口語、言い直し、相づちが混ざると、書き言葉前提のモデルは取りこぼしがちです。
汎用のWhisperは多言語を1つのモデルでまかなう設計のため、こうした日本語特有の現象を取り切れない場面があります。日本語のデータで鍛え直したモデルのほうが、会議のような実際の話し言葉に強くなりやすいわけです。
Kotoba Whisperとは
Kotoba Whisper は、OpenAIのWhisperをベースに日本語へ特化させたモデルです(OffRecoが使うのは v2.0)。技術的には、Whisper の最上位モデル **large-v3 を教師にして蒸留(distillation)**したもので、デコーダを軽量化しつつ日本語データで学習し直しています。
ポイントは2つあります。
- 軽くて速い: モデルカードによると、large-v3 と比べて約 6.3倍高速で、日本語ベンチマークの誤り率(CER)も large-v3 と同等以上とされています(例: CommonVoice 8 日本語で CER 9.2)。軽量なので、特別なGPUがなくても多くのMacで現実的な速度で動きます(出典: HuggingFace モデルカード)。
- faster-whisper で動く: 高速推論ライブラリ faster-whisper 向けの重みが用意されており、Mac上でも実用的なスピードで文字起こしできます。
つまり「日本語に強い」と「軽くて多くのMacで動く」を両立させやすいのが、Kotoba Whisper を選ぶ理由です。
精度を上げるためのコツ
モデルが良くても、使い方しだいで精度は変わります。日本語の会議で文字起こしの質を上げるなら、次の3点が効きます。
- 用途に合ったモデルを選ぶ: 速度重視か精度重視かで最適なモデルは変わります。OffRecoはセットアップ画面でモデルを選べるので、まずは日本語特化モデルを試し、必要に応じて切り替えてください(モデルの選び方)。
- 静かな環境で録る: 雑音や複数人の同時発話は、どんなモデルでも誤りの原因になります。マイク位置を整え、できるだけクリアな音で録るだけで結果が変わります。
- 話者分離を使う: 誰の発言かを区切ると、議事録としての読みやすさが上がり、後からの確認・修正もしやすくなります。OffRecoは話者分離に対応しています(任意のHugging Faceトークンを設定すると有効化できます)。
OffRecoの位置づけ
OffReco は、この Kotoba Whisper を完全ローカルで動かせる点が特徴です。
- すべてMacのなかで処理: 録音から文字起こし・話者分離まで端末内で完結し、音声・文字起こし本文を外部に送りません。機内モードでも文字起こしが動きます(初回のモデル取得時だけ通信が必要です)。
- 全自動: 会議を自動検知し、録音を終えると自動で文字起こしが始まります。毎回手で頼む必要はありません。
- 入口が軽い: 初月無料、その後は月¥200 / 年¥2,000。macOS 14.2以降で動作します。
なお要約機能は搭載していません。要点をまとめたいときは、できあがった文字起こしを ChatGPT や Claude などに貼り付けて使う運用が前提です。
まとめ
日本語の会議で文字起こし精度を上げたいなら、汎用Whisperより日本語特化のモデルを選ぶのが近道です。Kotoba Whisper は large-v3 から蒸留された日本語特化モデルで、軽量かつ多くのMacで動き、faster-whisper で実用的に使えます。OffReco はこれを完全ローカルかつ全自動で使えるので、音声をクラウドに上げずに日本語の議事録づくりを自動化したい人に向いています。まずはダウンロードして、自分の会議で精度を確かめてみてください。関連して、Macでクラウドに送らず会議を文字起こしする方法や、Whisperをローカルで動かす(設定不要の選択肢)も参考になります。