東中研究室D2の大橋と周です.トリノ(イタリア)で2024年5月20日〜25日に開催された The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) に参加し,合計3件の発表を行いました.本記事では,LREC-COLING 2024 の概要と,我々の発表について紹介します.
基本情報
LREC-COLINGは計算言語学に関する国際会議(COLING)と言語資源に関する国際会議(LREC)が共同開催された国際会議です.
今回は,イタリアのトリノにある Lingotto Congress Centre で開催されました.


全体の投稿数は 3,471 件,採択率は44% でした.Track の統計は,Corpora and Annotation が最も多く,次点は Information Extraction, Knowledge Extraction, and Text Mining でした.タイトルに含まれている 3-gram のランキングでは,(Large, Language, Models )が最多となっており,大規模言語モデルに関する研究が広く行われていることがうかがえます.


我々の発表
大橋は,口頭発表にて,日本語タスク指向型対話コーパス JMultiWOZ を構築した研究について発表しました.本コーパスの構築手順を紹介し,ベンチマークとしての有用性を検証するために実施した評価実験の結果を報告しました.
JMultiWOZ: A Large-Scale Japanese Multi-Domain Task-Oriented Dialogue Dataset Proceedings Article
In: The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING), 2024.

周は,ポスターセッションで,人間と共同作業を行う対話システムの作成を目指し,キャッチコピーの共同作成を行う人間同士の対話を集め,分析した研究について発表しました.
Collecting and Analyzing Dialogues in a Tagline Co-Writing Task Proceedings Article
In: The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING), 2024.


角森の発表では,ポスターセッションにて,SUIコーパスについて紹介しました.SUIコーパスは,過去のユーザとのやり取りから得られたユーザ情報と現在の文脈から発話を生成するためのコーパスです.このコーパスを用いることで,対話システムの親近感やユーザのことを覚えている度合いを高めることが可能となります.質問としては,LLMの活用方法や,ユーザ情報を覚えることの倫理的課題などについてのものがありました.
I Remember You!: SUI Corpus for Remembering and Utilizing Users' Information in Chat-oriented Dialogue Systems Proceedings Article
In: The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING), 2024.


気になった発表
以下は,我々が聴講した中で特に興味を持った発表です.
- On the Scaling Laws of Geographical Representation in Language Models
Nathan Godey, Éric de la Clergerie, Benoît Sagot
事前学習済み言語モデルが地理的情報をどれくらい保有しているかを解析した研究です.言語モデルのサイズに関わらず,モデルの内部表現から各国の緯度・経度を抽出できることが発見されました.また,北半球の国の情報の方が抽出しやすい等の”知識の偏り”は,モデルサイズに比例して大きくなってしまう,という興味深い分析結果も報告されていました. - DiffusionDialog: A Diffusion Model for Diverse Dialog Generation with Latent Space
Jianxiang Xiang, Zhenhua Liu, Haodong Liu, Yin Bai, Jia Cheng, Wenliang Chen
Latent diffusion model (LDM) を応用することで,対話における one-to-many 問題(単一の文脈に対する多様な応答候補を学習することが難しいという問題)に対処した研究です.事前分布の獲得に事前学習済みモデルのエンコーダを活用するというテクニックをLDMに導入することで,応答一貫性は維持しつつ,先行研究よりも高い応答多様性を実現しました. - JoTR: A Joint Transformer and Reinforcement Learning Framework for Dialogue Policy Learning
Wai-Chung Kwan, Huimin Wang, Hongru Wang, Zezhong Wang, Bin Liang, Xian Wu, Yefeng Zheng, Kam-Fai Wong
対話システムの行動決定を,sequence-to-sequence にモデル化する研究です.事前に定義された行動リストから行動を選択する従来手法(分類型アプローチ)と比較して,提案手法(生成型アプローチ)は,多様かつ動的な行動決定が可能であり,未知のドメインへも対処しやすいことが示唆されました.
参加してみて
大橋にとって英語での口頭発表は2回目でしたが,前回よりも研究内容自体は聴衆に理解してもらえた,という手応えを得ることができました.一方,質疑応答での「日本語コーパスであるJMultiWOZが日本語以外のコミュニティにどういった利益があるのか」という指摘を受け,国際会議で発表するからには,日本語コミュニティ以外へのメリットをもっと強調・議論するべきだったと学びました.発表後は,主にポスター発表を聴講していましたが,その場で研究分野が類似した同世代の学生と知り合い,議論できたことが良い刺激になりました.
食べ物に関しては,さすがイタリアということでどのお店も美味しく,非常に満足できました.ミラノ大聖堂,エジプト博物館,トリノ王宮など,有名どころの観光もでき,楽しく過ごせました.実りある国際会議参加となったと思います.

