Guide · AI Minutes

話者分離 (ダイアライゼーション) とは

4 分で読了更新: 2026-04-25
話者分離 (Speaker Diarization) とは、音声録音の中で「誰がいつ話したか」を自動的に区別する技術です。多人数会議の議事録で「発言者ラベル」を付けるために使われ、pyannote や NVIDIA NeMo 等のオープンソースモデルが標準的です。

仕組みの基礎

話者分離は、音声から各話者に固有の「声の特徴量 (埋め込みベクトル)」を抽出し、時間軸上でクラスタリング (似た声をグループ化) することで実現します。声紋認証の簡易版と考えて差し支えありません。

精度を左右する要素

  • 参加人数 — 2-3 人は精度高、5 人以上で精度低下
  • 声質の差異 — 男女混在や年齢差があるほど精度高
  • マイクの種類 — 個別マイクが最高、会議用 1 本マイクは落ちる
  • 発話の重なり — 同時発話が多いと区別が困難
  • 会議の長さ — 30 分以内が一般的な推奨

出力の例

話者分離の結果、各発言に「SPEAKER_00」「SPEAKER_01」のようなラベルが付きます。実名への置換は手動で行うのが一般的です (AI は固有名詞まで推定しません)。

限界と回避策

現在の話者分離技術には以下の限界があります。
  • 初めて話す人は別人として扱われる (音声プロファイル事前登録不要)
  • 音質が悪いと混線する
  • 長時間会議では話者ラベルが途中で入れ替わることがある
  • 発話が非常に短い (< 1 秒) と検出漏れ

Frequently Asked

何人までの会議で使えますか?

+

技術的には制限ありませんが、実用精度で推奨できるのは 5 人までです。6 人以上になると、別人を同じ話者として統合してしまうエラーが増えます。

会議の録音後に話者名を編集できますか?

+

多くのサービスで可能です。SPEAKER_00 を「田中さん」のように置換すれば、議事録全体に反映されます。

電話会議でも使えますか?

+

可能ですが、電話の音質 (8kHz or 16kHz) では高音質録音より精度が落ちます。対面やビデオ会議での使用が最も精度が高くなります。

Try It

会議録音 AI を実際に試してみる

登録不要・月 1 回無料で、ブラウザからすぐ録音を始められます。

録音を試す

Related Guides