早稲田大学 知覚情報システム・メディアインテリジェンス研究室

話者クラスタリング

話者クラスタリング

雑音に頑健な話者クラスタリング

ノイズ環境下で収録された発話集合から、同一話者による発話を弁別する枠組みを実現しました。発話に雑音が多く含まれる場合、発話間で算出される類似度の信頼性が著しく低下するため、従来の手法では適切なクラスタリングは困難でした。そこで、発話間の類似度パターンを統計的に解析し、話者の類似性に基づく類似度成分のみを強調することで、雑音環境下でも頑健に発話を弁別できることを示しました。

noiserobust_speaker_clustering

図:雑音環境下における発話間の類似度行列(左図)と提案手法による話者の類似性強調後の類似度行列(右図)青枠内が同一話者による発話の類似度に対応する。

Related Publications

  • Naohiro Tawara, Tetsuji Ogawa and Tetsunori Kobayashi, A comparative study of spectral clustering for i-vector-based speaker clustering under noisy conditions. Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP):pp. 2041-2045, April 2015

混合混合分布に基づく話者クラスタリング

画像や音声等のような複数のデータ集合(ピクセルやフレーム集合など)から構成されるデータをクラスタリングするための新たな枠組みを提案しました。混合混合分布と呼ばれる確率分布を導入し、話者クラスタリング問題を混合混合分布の構造推定問題に帰着させて解く枠組みを提案しました。このとき、マルコフモンテカルロ法と呼ばれる非決定論的手法に基づくモデル推定手法を導入することで様々なノイズに対して頑健にクラスタリングを行えることを示しました。

speaker_clustering

Related Publications

  • Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi, “Nested Gibbs sampling for mixture-of-mixture model and its application to speaker clustering,” APSIPA Trans. Signal & Info. Process., vol.5, Aug. 2016. doi: 10.1017/ATSIP.2016.15
  • Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura and Tetsunori Kobayashi, A sampling-based speaker clustering using utterance-oriented Dirichlet process mixture model. APSIPA Transactions on Signal and Information Processing, Vol.4:e6, September 2015.

© 2015 Perceptual Computing Group, Waseda University. All Rights Reserved

page-projects