Guide · AI Minutes
話者分離 (ダイアライゼーション) とは
約 4 分で読了更新: 2026-04-25
話者分離 (Speaker Diarization) とは、音声録音の中で「誰がいつ話したか」を自動的に区別する技術です。多人数会議の議事録で「発言者ラベル」を付けるために使われ、pyannote や NVIDIA NeMo 等のオープンソースモデルが標準的です。
仕組みの基礎
話者分離は、音声から各話者に固有の「声の特徴量 (埋め込みベクトル)」を抽出し、時間軸上でクラスタリング (似た声をグループ化) することで実現します。声紋認証の簡易版と考えて差し支えありません。
精度を左右する要素
- •参加人数 — 2-3 人は精度高、5 人以上で精度低下
- •声質の差異 — 男女混在や年齢差があるほど精度高
- •マイクの種類 — 個別マイクが最高、会議用 1 本マイクは落ちる
- •発話の重なり — 同時発話が多いと区別が困難
- •会議の長さ — 30 分以内が一般的な推奨
出力の例
話者分離の結果、各発言に「SPEAKER_00」「SPEAKER_01」のようなラベルが付きます。実名への置換は手動で行うのが一般的です (AI は固有名詞まで推定しません)。
限界と回避策
現在の話者分離技術には以下の限界があります。
- •初めて話す人は別人として扱われる (音声プロファイル事前登録不要)
- •音質が悪いと混線する
- •長時間会議では話者ラベルが途中で入れ替わることがある
- •発話が非常に短い (< 1 秒) と検出漏れ
Frequently Asked
何人までの会議で使えますか?
+
技術的には制限ありませんが、実用精度で推奨できるのは 5 人までです。6 人以上になると、別人を同じ話者として統合してしまうエラーが増えます。
会議の録音後に話者名を編集できますか?
+
多くのサービスで可能です。SPEAKER_00 を「田中さん」のように置換すれば、議事録全体に反映されます。
電話会議でも使えますか?
+
可能ですが、電話の音質 (8kHz or 16kHz) では高音質録音より精度が落ちます。対面やビデオ会議での使用が最も精度が高くなります。
Try It
会議録音 AI を実際に試してみる
登録不要・月 1 回無料で、ブラウザからすぐ録音を始められます。
録音を試す