M2の佐藤が,台湾で2024/10/17~19に開催されたOriental COCOSDA 2024で発表を行いました.
基本情報
Oriental COCOSDA(O-COCOSDA)は,東洋言語の音声言語コーパスの作成,利用,普及,および音声認識/合成システムの評価方法に関する国際会議です.
今年は台湾の国立陽明交通大学で開催されました.

発表件数は口頭発表が18件,ポスター発表が53件でした.
開催地である台湾からの投稿が最も多く,次いでインド,中国,日本からの投稿が多くありました.


自身の発表
佐藤は,本会議1日目のポスターセッション#2にて,複数の日本語データセットによる音声活動予測モデルの学習とその評価について発表しました.質疑応答では,Voice Activity Projection (VAP) モデルの挙動や,データセットによる性能の違いについて質問を受けました.
Effects of multiple Japanese datasets for training Voice Activity Projection models Proceedings Article
In: Proceedings of the 27th conference of Oriental COCOSDA (O-COCOSDA), 2024.

Keynotes
3件のKeynoteがありました.
- Learning Towards Generative and Conversational AI
Prof. Jen-Tzung Chien (Lifetime Chair Professor, National Yang Ming Chiao Tung University)
音声対話システムは,ASR,TTS,自然言語生成など複数のコンポーネントで構成されています.個々のコンポーネントの最新の生成モデルに注目し,これらを包括的な会話システムに統合することが改善につながるという内容でした. - Language-Universal Speech Processing: Lessons learned from ASAT and Large Pre-trained Models with Extensions to Multilingual ASR
Prof. Chin-Hui Lee (IEEE & ISCA Fellow, Georgia Tech)
多言語ASRシステムの開発について紹介されました.深層学習技術の進歩により,リソースが豊富な言語のASRのパフォーマンスは大幅に向上しました.一方で,ブラックボックスアプローチが実用への適用を妨げているとのことでした.また,音声は異なる言語間でも普遍的な特徴を有しているため,その特徴を活用することが,リソースが限られた言語に対応する堅牢な多言語ASRシステムの開発にも貢献できるということでした. - Recent trends in speech translation
Satoshi Nakamura (Professor, Chinese University of Hong Kong, Shenzhen)
自動音声同時翻訳に関する研究が紹介されました.近年の音声翻訳技術は実用レベルに至っていますが,発話終了前に通訳を出力する自動同時翻訳を実現するためには,依然として様々な問題があります.実際の例として,英語と日本語では語順が違うため文章の入力が終わるまで処理が始められない問題が挙げられ,それに対するアプローチが紹介されました.
気になった発表
- Proposal of Protocols For Speech Materials Acquisition And Presentation Assisted By Tools Based On Structured Test Signals
Hideki Kawahara, Ken-Ichi Sakakibara, Mitsunori Mizumachi, and Kohei Yatabe
音声データの取得においては,反響や録音環境などの違いが問題になります.テスト用の音源を利用してそのようなノイズを計測するツールが紹介されました.
参加してみて
海外渡航は初めてだったため少し不安でしたが,台湾の方には大変よくしていただき海外初心者にとって居心地がよいと感じました.発表や質疑応答や他の参加者との議論ではあまりうまく話すことができず,英語力の不足を痛感しました.