APSIPA ASC 2024で発表を行いました

M2の佐藤が,マカオ(中国)で2024/12/3~6に開催されたAPSIPA ASC 2024で発表を行いました.

基本情報

APSIPA ASCは,アジア太平洋信号情報処理協会(APSIPA)が主催する,信号処理、情報技術、通信の研究と教育を促進することを目的とした国際会議です.近年知名度の上がっている会議で,SCOPUSのCiteScoreではQ1に分類されています.
今年はマカオのギャラクシー国際会議センターで開催されました.

発表件数は約400件でした.
日本人の参加者が最も多く,次いで中国や台湾からの参加者が多かったです.

自身の発表

佐藤は,本会議4日目の口頭発表にて,発話区間ラベルの統一に基づく音声活動予測モデルの言語依存性に関する調査について発表しました.質疑応答では,音声活動推定の精度にはどのような傾向があるか,データセットによる録音機材の違いは影響していないのかなどの質問を受けました.

Yuki Sato, Yuya Chiba, Ryuichiro Higashinaka

Investigating the Language Independence of Voice Activity Projection Models through Standardization of Speech Segmentation Labels Proceedings Article

In: Proceedings of Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2024.

BibTeX

Keynote

  • Rate-Distortion Optimization in Video/Image Compression: From Temporal Dependency Formulation to Learning-based Modeling
    Ce Zhu
    過去数十年で,画像・映像の符号化技術とその応用が目覚ましい進歩を遂げています.本講演では,レート歪み最適化(ROD)技術に注目し,旧来のものから最新のものまでさまざまなビデオコーディング規格に用いられている技術についての紹介がありました.
  • Learning from Unreliable Sources via Crowdsourcing
    Georgios Giannakis
    クラウドソーシングは大規模データの構築に便利ですが,知識を持たない複数のアノテーターによって発生するノイズが多く,適切な利用ができない場合があります.本講演では,分類タスクに焦点を当てて,クラウドソーシングにおけるクラス分類の堅牢化についての紹介がありました.
  • AI and Cognitive Health
    Helen Meng
    世界的な人口高齢化が急速に進む中,健康に関する主な懸念は,認知症としても知られる神経認知障害(NCD)にあります.スクリーニング NCD は、病気の進行を遅らせるためのタイムリーな介入にとって非常に重要です.本講演では,音声データ収集プロトコル,AI 対応の音声の開発など,認知的健康を評価するための音声言語の使用に関する研究の紹介がありました.

気になった発表

  • Scale-invariant Online Voice Activity Detection under Various Environment
    Takeda Ryu, Komatani Kazunori
    ノイズへの耐性が高く,細かいチューニングが可能な音声活動推定モデルを開発した研究です.
  • Is Corpus Truth for Human Perception?: Quality Assessment of Voice Response Timing in Conversational Corpus through Timing Replacement
    Yoshikawa, Sadahiro*; Ishii, Ryo; Okada, Shogo
    実際の対話音源において,返答タイミングをちょうど0秒に変更したときの自然性を評価した実験です.オーバラップをなくしたほうが自然に聞こえるという結果が報告されていました.
  • LEAD Dataset: How Can Labels for Sound Event Detection Vary Depending on Annotators?
    Koga, Naoki; Bando, Yoshiaki; Imoto, Keisuke*
    音声イベントのラベリングがアノテーターに依存して変化することに注目し,複数のアノテータによるラベルを合わせて確率的に表現する手法を提案した研究です.

参加してみて

佐藤にとって海外渡航は2回目でしたが,前回よりも英語が通じるという実感を得ることができました.しかし,質疑応答ではまだあまりうまく話すことができず,英語力の不足を痛感しました.

食べ物に関しては,会議で出た食事の他,人気のエッグタルトが特においしく,満足できました.また,各種ホテルに併設されているカジノや,聖ポール天主堂跡,セナド広場,東望洋砲台塔など,有名どころの観光もでき,楽しく過ごせました.実りある国際会議参加となったと思います.