早稲田大学 知覚情報システム研究室

2025/01

Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, “Harnessing the zero-shot power of instruction-tuned large language model for guiding end-to-end speech recognition,” Proc. 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2025), pp.XXXX-XXXX, April 2025. (to appear)

2025/01

菅野竜雅，佐藤裕明，佐久間旭，熊野正，河合吉彦，小川哲司，“発音プロンプトと辞書を活用したEnd-to-End音声認識のキーワード認識精度改善手法，” 日本音響学会研究発表会講演論文集，pp.XXX-XXX，March 2025. (to appear)

2025/01

楠奈穂美，樋口陽祐，小川哲司，小林哲則，“階層的マルチタスク学習とContextual Biasingを用いたEnd-to-End音声認識, ” 日本音響学会研究発表会講演論文集，pp.XXX-XXX，March 2025. (to appear)

2025/01

佐藤裕明，佐久間旭，菅野竜雅，熊野正，河合吉彦，小川哲司，“Evidential deep learningを用いた不確実性に基づくストリーミング音声認識，” 電子情報通信学会研究報告 (SP)，vol.XXX，no.XX，SP2024-XX，pp.XXX-XXX，March 2025．(to appear)

2024/12

楠奈穂美，樋口陽祐，小川哲司，小林哲則，“再帰的フィードバックを用いた階層的 End-to-End 音声認識，” 情報処理学会研究報告 (SLP)，vol.2024-SLP-XX，no.XX，pp.XXX-XXX，Dec. 2024.

2024/12

佐久間旭，佐藤裕明，菅野竜雅，熊野正，河合吉彦，小川哲司，“発話被りを含む会話音声認識のための多話者CTC損失関数の検討，” 電子情報通信学会技術研究報告 (SP)，vol.XXX，no.XX，SP2024-XX，pp.XXX-XXX，Dec. 2024.

2024/12

樋口陽祐，小川哲司，小林哲則，“End-to-End音声認識における指示チューニングされた大規模言語モデルの活用，” 情報処理学会研究報告 (SLP)，vol.2024-SLP-XX，no.XX，pp.XXX-XXX，Dec. 2024. [シンポジウム奨励賞][若手奨励賞]

2024/09

菅野竜雅，佐藤裕明，佐久間旭，熊野正，河合吉彦，小川哲司，“低頻度語のためのプロンプトを活用した音声認識，” 日本音響学会研究発表会講演論文集，2-Q-38，Sept. 2024．

2024/09

Nahomi Kusunoki, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, “Hierarchical multi-task learning with CTC and recursive operation,” Proc. The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH2024), pp.2855-2859, Sept. 2024.

2024/01

菅野竜雅，佐藤裕明，熊野正，河合吉彦，小川哲司，“発音出力を利用したchain of thought 音声認識，” 日本音響学会研究発表会講演論文集，March 2024. (to appear)

2024/01

楠奈穂美，樋口陽祐，小川哲司，小林哲則，“再帰的フィードバックを用いた階層的マルチタスク学習によるEnd-to-End音声認識，” 日本音響学会研究発表会講演論文集，March 2024. (to appear)

2023/09

佐藤裕明，菅野竜雅，佐久間旭，河合吉彦，熊野正，山田一郎，小川哲司，“Streaming transducerにおけるテキストのみを用いた学習方法に関する検討，” 日本音響学会研究発表会講演論文集，Sept. 2023．

2023/09

藤江真也，小林哲則，“非流暢現象ラベル付き発音形認識モデルとテキスト変換モデルを組み合わせた音声認識システム，” 日本音響学会秋季研究発表会講演論文集，Sept. 2023.

2023/09

樋口陽祐，小川哲司，小林哲則，渡部晋治，“事前学習済みマスク言語モデルを用いたEnd-to-end音声認識，” 日本音響学会研究発表会講演論文集，Sept. 2023．

2023/09

Huaibo Zhao, Shinya Fujie, Tetsuji Ogawa, Tetsunori Kobayashi, “An investigation on constructing multi-look-ahead contextual block streaming transducer,” 日本音響学会研究発表会講演論文集，Sept. 2023．

2023/09

Huaibo Zhao, Yosuke Higuchi, Yusuke Kida, Tetsuji Ogawa, Tetsunori Kobayashi, “Mask-CTC-based encoder pre-training for streaming end-to-end speech recognition,” Proc. the 31st European Signal Processing Conference (EUSIPCO2023), pp.56-60, Sept. 2023. [DOI]

2023/08

菅野竜雅，佐藤裕明，佐久間旭，熊野正，河合吉彦，山田一郎，小川哲司，“字幕制作効率化のための音声認識エラー検出手法，” 映像メディア学会2023年年次大会，Aug. 2023．

2023/08

Jin Sakuma, Shinya Fujie, Huaibo Zhao, Tetsunori Kobayashi, “Improving the response timing estimation for spoken dialogue systems by reducing the effect of speech recognition delay,” Proc. The 24th Annual Conference of the International Speech Communication Association (INTERSPEECH2023), pp.2668-2672, Aug. 2023. [DOI]

2023/06

Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe, “InterMPL: Momentum pseudo-labeling with intermediate CTC loss,” Proc. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2023), June 2023. [DOI]

2023/06

Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe, “BECTRA: Transducer-based end-to-end ASR with BERT-enhanced encoder,” Proc. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2023), June 2023. [DOI]

2023/06

Huaibo Zhao, Shinya Fujie, Tetsuji Ogawa, Jin Sakuma, Yusuke Kida, Tetsunori Kobayashi, “Conversation-oriented ASR with multi-look-ahead CBS architecture,” Proc. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2023), June 2023. [DOI]

2023/03

藤田雄介，小松達也，木田祐介，小川哲司，“中間層予測を用いたEnd-to-Endダイアライゼーション，” 日本音響学会研究発表会講演論文集，pp.665-666，March 2022.

2023/01

Zhao Huaibo, Shinya Fujie, Tetsuji Ogawa, Jin Sakuma, Yusuke Kida, Tetsunori Kobayashi, “Multiple latency CBS streaming ASR for conversational systems,” 情報処理学会研究報告 (SLP)，vol.2022-SLP-146，no.9，pp.1-6，Feb. 2023.

2022/12

Yosuke Higuchi, Brian Yan, Siddhant Arora, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe, “BERT Meets CTC: New Formulation of End-to-End Speech Recognition with Pre-trained Masked Language Model,” Proc. The 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP2022), Dec. 2022. [URL]

2022/09

Hiroaki Sato, Tomoyasu Komori, Takeshi Mishima, Yoshihiko Kawai, Takahiro Mochizuki, Shoei Sato, Tetsuji Ogawa, “Text-only domain adaptation based on intermediate CTC,” Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022), Sept. 2022. [DOI] [Scopus]

2022/09

Yuta Ide, Susumu Saito, Teppei Nakano, Tetsuji Ogawa, “Can humans correct errors from system? Investigating error tendencies in speaker identification using crowdsourcing,” Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022), Sept. 2022. [DOI] [Scopus]

2022/06

趙懐博，樋口陽祐，木田祐介，小川哲司，小林哲則，“Transducer型ストリーミング音声認識におけるMask-CTCを用いた事前学習，” 情報処理学会研究報告 (SLP)，vol.2022-SLP-142，no.61，pp.1-6，June 2022．

2022/05

Yosuke Higuchi, Keita Karube, Tetsuji Ogawa, Tetsunori Kobayashi, “Hierarchical conditional end-to-end ASR with CTC and multi-granular subword units,” Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022), pp.7797-7801, May 2022. [DOI] [Scopus]

2022/03

樋口陽祐，軽部敬太，小川哲司，小林哲則，“粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識，” 日本音響学会研究発表会講演論文集，pp.955-956，March 2022．

2022/03

井手悠太，斎藤奨，中野鐵兵，小川哲司，“クラウドソーシングを用いた話者照合結果の検証における誤り削減傾向に関する調査，” 日本音響学会研究発表会講演論文集，pp.1105-1108，March 2022．

2022/03

佐藤裕明，小森智康，三島剛，河合吉彦，望月貴裕，佐藤庄衛，小川哲司，“テキストのみを用いたIntermediate-CTCコンフォーマーモデルのドメイン適応，” 日本音響学会研究発表会講演論文集，pp.877-880，March 2022．

2021/12

Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, “An investigation of enhancing CTC model for triggered attention-based streaming ASR,” Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021), pp.477-483, Dec. 2021. [URL] [Scopus]

2021/12

佐藤裕明，小森智康，三島剛，河合吉彦，望月貴裕，佐藤庄衛，小川哲司，“テキストのみを用いたドメイン適応のためのIntermediate-CTCコンフォーマーモデルに関する検討，” 情報処理学会研究報告 (NL)，vol.2021-NL-251, no.29, pp.1-6, Dec. 2021. [第251回自然言語処理研究会優秀発表賞]

2021/12

井手悠太，斎藤奨，中野鐵兵，小川哲司，“クラウドソーシングを用いた結果の検証による話者照合性能の改善，” 情報処理学会研究報告 (SLP)，vol.2021-SLP-139，no.6，pp.1-6, Dec. 2021.

2021/12

樋口陽祐，軽部敬太，小川哲司，小林哲則，“End-to-End音声認識のための粒度の異なるサブワード単位に基づく階層的な条件付け，” 情報処理学会研究報告 (SLP)，vol.2021-SLP-139，no.19，pp.1-6, Dec. 2021.

2021/01

Yosuke Higuchi, Hirofumi Inaguma, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi, “Improved Mask-CTC for non-autoregressive end-to-end ASR,” Proc. 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2021), pp.8363-8367, June 2021.

2019/09

Yosuke Higuchi, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa, “Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages,” Proc. The 20th Annual Conference of the International Speech Communication Association (INTERSPEECH2019), pp.266-270, Sept. 2019. [DOI] [Scopus]

2015/12

Sri Harish Mallidi, Tetsuji Ogawa, Hynek Hermansky, “Uncertainty estimation of DNN classifiers,” Proc. ASRU2015, pp.283-288, Dec. 2015.

2015/09

森岡幹,俵直弘,小川哲司,岩田具治,小川篤徳,堀貴明,小林哲則, 複数の文脈長を考慮したリカレントニューラルネットワークに基づく言語モデル. 日本音響学会 2015年秋季研究発表会講演論文集, (1-2-7):pp.17-20, September 2015

2015/09

Tetsuji Ogawa, Kenshiro Ueda, Kouichi Katsurada, Tetsunori Kobayashi and Tsuneo Nitta, Bilinear map of filter-bank outputs for DNN-based speech recognition. Proc. 16th Annual Conference of the International Speech Communication Association (INTERSPEECH2015):pp.16-20, September 2015

2015/09

Tsuyoshi Morioka, Tomoharu Iwata, Takaaki Hori and Tetsunori Kobayashi, Multiscale recurrent neural network based language model. Proc. 16th Annual Conference of the International Speech Communication Association (INTERSPEECH2015):pp.2366-2370, September 2015

2015/09

Sri Harish Mallidi, Tetsuji Ogawa, Karel Vesely, Phani Nidadavolu, Hynek Hermansky, “Autoencoder based multi-stream combination for noise robust speech recognition,’’ Proc. INTERSPEECH2015, pp.3551-3555, Sept. 2015.

2015/03

上田賢次郎,小川哲司,小林哲則,桂田浩一,新田恒雄, テンソル積による基底変換に基づく音声認識方式の検討. 日本音響学会 2015年春季研究発表会講演論文集, (1-1-3):pp.7-10, March 2015

2015/03

久保田雄一,大町基,小林哲則,新田恒雄, 話者正準化を用いた連続音声認識における改良. 日本音響学会 2015年春季研究発表会講演論文集, (1-1-1):pp.1-2, March 2015

2014/09

Yuichi Kubota, Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi and Tsuneo Nitta, Effect of frequency weighting on MLP-based speaker canonicalization, in Proceedings of INTERSPEECH2014, 2014, 2987-2991, Sept.

2002/09

Tetsuji Ogawa, Tetsunori Kobayashi, Generalization of State-Observation-Dependency in Partly Hidden Markov Models. Proc. 7th International Conference on Spoken Language Processing (ICSLP2002):pp.2673-2676, September 2002

2002/09

小川哲司, 小林哲則, 部分隠れマルコフモデルの拡張と連続音声認識による評価. 日本音響学会2002 年秋期研究発表会講演論文集, (1-9-26):pp.51-52, September 2002

2002/09

柴田大輔, 小林哲則, ワンパストライグラムデコーダにおける単語履歴の束ね処理に関する検討. 日本音響学会2002 年秋期研究発表会講演論文集, (3-9-11):pp.151-152, September 2002

2002/07

小川哲司, 小林哲則, 部分隠れマルコフモデルによる連続音声認識. 電子情報通信学会技術研究報告音声(SP), Vol.102(No.159):pp.25-30, July 2002

音声認識

Publications

ARCHIVES

OTHER SITES