SIGDIAL2024・YRRSDS2024・SDS4CAで発表を行いました

京都大学(京都府京都市)で2024年9月16日~20日に開催されたSIGDIAL2024YRRSDS2024SDS4CAにて,郭(研究員),大橋(D2),周(D2),銭本(D1),姜(M2),望月(M2)の6名が参加しました.

SIGDIAL2024

The Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL) は談話と対話に関する国際会議です.

今年は161名の参加登録があり,ロング/ショート/デモ併せて65件の論文が採択され,発表が行われました.

自身の発表

姜は,3日目のオーラルセッションにて,以下の研究について発表をしました.異種センサを用いて生体信号を含むマルチモーダル対話データを収集し,対話における感情と生体信号との関係を分析した論文です.

Jingjing Jiang, Ao Guo, Ryuichiro Higashinaka

Estimating the Emotional Valence of Interlocutors Using Heterogeneous Sensors in Human-Human Dialogue Proceedings Article

In: Proceedings of the 25th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL) , pp. 718-727, Kyoto, Japan, 2024.

Links | BibTeX

発表する様子

基調講演

Yeah, Well, Haha: Generating Non-linguistic Behaviors For Human-like Conversational Robote (Koji Inoue)

相槌やターンテイキング,笑いなどのNon-linguisticな応答技術とその重要性についての講演でした.今後よりマルチモーダルな対話システムが主流になっていく中で,これらのようなNon-linguisticな情報は,ユーザの満足度や対話継続率に大きく影響します.「うん」「うんうん」「うんうんうん」「へぇ」などの相槌を使い分けるだけでも,対話システムがこちらの話を理解できている印象を与えることができるそうです.

AI Agents Beyond ChatGPT (Zhou Yu)

ChatGPTのような汎用的な対話エージェントを構築するには,精度,コスト,セキュリティの観点から産業分野では実用的でないことが多くあります.そのため,AIエージェントが特定なタスクをより効率的に処理できるよう,ファインチューニングで小規模なオープンソースモデルを開発する様々なアプローチが紹介されました.さらに,リフレクションのようなAIエージェントフレームワークが,小規模モデルの設定でどのように応用できるかについても紹介されました.

気になった発表

  • InteLLA: Intelligent Language Learning Assistant for Assessing Language Proficiency through Interviews and Roleplays(ベストペーパー)
    • 第二言語学習者の熟練度の評価を目的として,インタビューを通してユーザの言語能力の探索を行うバーチャルエージェントを提案した研究です.このバーチャルエージェントは,リアルタイムに相手の言語能力を評価しながら対話の難易度を調節し,ユーザの言語能力の限界を見つける事ができます.実験の結果,バーチャルエージェントは人と同等の精度でユーザの言語能力を評価できることがわかったそうです.
  • Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning
    • 対話型インタラクションにおける自動音声認識(ASR)の精度向上に取り組んで,ノイズの多い環境でも音声認識の精度を向上させるを目的とした研究です.ユーザとエージェントとの対話履歴を活用したContext-Noise表現学習(CNRL)を提案しました.実験の結果,最先端のASRモデルと比較して単語誤り率(WER)を13%削減し,特にノイズの多い環境ではベースラインより31.4%のWER削減を達成しています.

YRRSDS2024

Young Researchers’ Roundtable on Spoken Dialogue Systems (YRRSDS) は対話システムの若手研究者が議論する,SIGDIALと共催のワークショップです.15 日と 16 日の 2 日間開催され,参加者は50 名でした.

東中研究室からは,大橋,周,銭本,姜が参加しました.また,大橋と銭本は運営として参加し,本ワークショップの事前準備や議論の司会役などを担当しました.

対話システムに関するトピックについて議論するラウンドテーブルは計 9 セッションあり,マルチモーダルや評価,XAIなどのトピックについての活発な議論が行われました.以下は,いくつかのトピックと,実際に議論した内容です:

  • トピック:Evaluation
    • このラウンドテーブルでは,特に LLM 駆動の対話システムを評価する際の難しさや,既存の評価尺度の限界について議論しました.流暢性や単語のオーバーラップだけでなく,一貫性,常識,などの観点を考慮した統合的な評価手法の必要性が挙げられました.また,特定のベンチマークに対する “gaming”(攻略)や “over-specialized”(過度の専門化)の懸念についても議論しました.
  • トピック:Explainability & Faithfulness
    • このラウンドテーブルでは,説明可能な AI (explainable AI; XAI) について議論しました.例えば,科学者はモデル改善のために厳密な説明を要求する一方,一般ユーザは,簡潔で分かりやすい説明を求めるなど,各々がモデルに求める解釈可能性は異なることに着目しつつ議論が展開されました.また,モデルが出力した説明の質を評価する尺度が不足している問題についても議論しました.
  • トピック:Present and Future of SDSs
    • このラウンドテーブルでは,まず,参加者自身がいま対話システムを研究するモチベーションを共有しました.例えば,対話システムに物理的な身体は必要なのかについて参加者が自身の考えを共有しました.また,将来の対話システム研究においても,LLM のような統合的な black box アプローチが主流なのか,それとも,操作性や忠実性が高いモジュラー型のアプローチに戻るのかを,両者の特徴を比較しながら議論しました.

ラウンドテーブルのほか,口頭発表形式のポジショントークもあり,各参加者は自身の研究内容や研究方針について発表しました.

Social Activityで訪れた銀閣寺

SDS4CA

Workshop on Spoken Dialogue Systems for Cybernetic Avatars (SDS4CA) は,サイバネティックアバターのための音声対話技術に関するワークショップです.

東中研究室からは郭と望月が参加しました.

発表について

発表件数は,キーノートが3件,プロジェクトトークが3件(教員の東中のトークも含まれています),口頭発表が3件,ポスターが12件でした.ムーンショットのアバター共生社会プロジェクトのメンバーを中心に,国外からも参加者が集まりました.

以下,キーノートの概要です.

  • Toward Avatar-Symbiotic Society (Hiroshi Ishiguro, Osaka University)
    アバター共生社会プロジェクトのこれまでの取り組みや今後の課題について説明がありました.プロジェクトに所属している他の研究チームが取り組んできた実証実験の概要などを把握することができたとともに,自身が取り組んでいる研究の意義や目標について再確認することができました.
  • Avatar Social Ethics Design (Yukiko Nakano, Seikei University)
    人間とコミュニケーションを取るアバターのデザインに関する講演でした.アバターのジェンダーを変化させた際の印象の違いに関する研究結果などが紹介され,ビジュアルなどの外面的なデザインだけでなく,内面的なデザインも重要であることを学びました.
  • Multimodal, Multilingual Generative AI for Education (Nancy F. Chen, A-STAR, I2R)
    生成AIの教育分野での活用に関する講演でした.具体的な取り組みとして,英語や中国語など多言語の発音評価システムなどが紹介され,多言語で学習されている大規模言語モデルの強みを活かした具体的なアプリケーションについて知ることができました.

自身の発表

郭と望月はポスター発表を行いました.

郭は,人間が遠隔操作する移動型対話ロボットによる水族館の案内対話を収集した実験の内容と収集したアンケート結果の分析について発表しました.

望月は,自身が構築した人間とロボットとの対話の映像から対話中に生じた問題を検出するモデルに関して,学習データサイズがモデルの検出性能に与える影響や,対話の実施環境が異なるデータへの汎用性の分析結果について発表しました.

参加してみて

SIGDIAL は,参加者全員が談話・対話システムの研究者であるため,共通の興味を持つトピックについて深い議論ができるのが,大きな魅力の一つだと感じました.Excursion や banquet などのイベントを通じて,自身の研究について話したり,新しい仲間やコネクションを作る機会が多かったのも印象的でした.今年は 25 周年という節目の年で,David Traum 先生や Kristiina Jokinen 先生が,これまでの SIGDIAL の成長について話してくださり,この学会の歴史や発展を肌で感じられる貴重な機会となりました.