第15回対話システムシンポジウムに参加しました

国立国語研究所(東京都立川市)で2024年11月28-29日に開催された対話システムシンポジウムに,銭本(D1),藤枝(M1)の2名が参加しました.

会場の国立国語研究所

対話システムシンポジウム

対話システムシンポジウムは,人工知能学会 言語・音声理解と対話処理研究会 (SIG-SLUD)が年に1回開催しているシンポジウムです.国内の対話システム関係者が一堂に会し,様々な対話システムに関する研究発表が行われます.

今年は全部で62件の発表が行われました.

招待講演

マルチモーダル言語処理は世界を変えるのか
(慶應義塾大学 杉浦孔明先生)

  • この公演では,マルチモーダル言語処理の歴史の説明を行った後,現在のマルチモーダル言語処理の研究例としてロボティクスへの応用とマルチモーダルLLMを紹介していました.ロボティクスへの応用に関しては,2023年以降ロボット用の基盤モデルの開発が活発に行われており,具体的にはGatoやRT-1/2/Xなどの説明がありました.マルチモーダルLLMに関しては実世界検索エンジンやモビリティ向け移動指示理解などの研究が紹介されました. 【スライド】

気になった発表

  • 発話意図の同時生成によるユーザ情報抽出を目的としたLLMエージェントの対話戦略学習(濱 健太, 基村 竜晟, 大塚 淳史, 中辻 真)
    • この研究では, ユーザーの対話継続意思を維持しながら幅広いトピックの情報を戦略的に収集するインタビュー対話システムを提案しています.まず人間同士のインタビュー対話データを収集し,どのような戦略(話題転換や自己開示など)が行われているかを分析しました.その後,収集した対話データを用いて8BパラメータのLLMに発話内容と発話戦略を学習させました.ユーザー評価実験の結果,提案手法は訓練を行わない70Bパラメータのモデルと比較して,より広い情報を引き出すことができる一方で, 対話の印象の面では及ばないという中間的な性能を示すことが報告されました.
  • 音声認識誤りに起因する対話破綻に対する大規模言語モデルによる修復の分析(堅田 俊, 駒谷 和範)
    • この研究では,音声認識誤りによる対話破綻のリスクと,LLMの音声認識誤りに対する修復能力を調査しています.音声認識モデルとしてWhisperを,対話生成にはGPT-4を使用して対話コーパスを作成し,コーパス内の対話データに対して「破綻リスクラベル」と「応答ラベル(LLMが音声認識誤りを修復できたか)」,「対話への印象」を付与しました.分析の結果,対話破綻リスクの大きい音声認識誤りの56%で,GPT-4は対話破綻を回避できることが報告されました.

デモ発表

今回の対話システムシンポジウムでは全部で19件のデモセッションがあり,様々な対話システムや対話システムを利用したアプリケーションが展示されていました.興味を持ったものを2件紹介します.

  • テキスト・音声・動画生成を活用した低コストでスケーラブルなリアルタイム音声対話(沢田 慶, 藤田 達也, 三井 健太郎, 法野 行哉, 若月 駿尭, 石川 翔, オーカール ターレック, 陳 心琪)
    • このデモでは,3種類のリアルタイムの音声対話システムが展示されていました.比較的パラメータ数の少ないLLMを用いるなどの,リアルタイムな音声対話を低コストで実現するための様々な工夫が行われていました.
  • AIによる次世代心理療法エージェントの開発(前田 詞緒, 野間 紘久, 室井 慧, 宋 龍平, 中島 俊)
    • このデモでは,カウンセリングや動機付け面接などの心理療法を行うエージェントが展示されていました.(デモの動画が公開されているのでぜひご覧ください.)実証実験はまだとのことで,今後は人間の心理療法士と比べて本エージェントが有効な治療を行えるかを調査していくとのことです.

国際会議報告

対話システムシンポジウムでは,その年の対話システムに関する主要な国際会議の参加報告が行われます.今回は以下の4つの国際会議の参加報告が行われました.

参加してみて

対話システムシンポジウムは参加者全員が対話システムの研究者であるため,対話研究の現状や今後について深い議論ができる素晴らしい学会でした.デモセッションも多く,企業・研究室の様々な対話システムと対話することができ,非常に盛りあがっていました.また今回はインタビューやカウンセリングなど,特定の目的があるが柔軟な応答が求められるタスクに取り組んでいる研究が多かったのが印象的でした.ぜひ次回も参加したいと思います.

懇親会の食事の様子