### SUNET: Speaker-Utterance Interaction Graph Neural Network for Emotion Recognition in Conversations
#### 背景与意义
在当今社会,随着人工智能技术的飞速发展,对话系统中的情感识别(Emotion Recognition in Conversations, ERC)已经成为了一个重要的研究领域。通过捕捉对话中说话人的情绪变化,ERC在客户服务、心理治疗、娱乐等多个领域都有着广泛的应用前景。近年来,图神经网络(Graph Neural Networks, GNNs)因其能够捕捉复杂非欧几里得空间特征的能力,在ERC任务中得到了广泛应用。然而,如何有效地建模对话过程,以提高在复杂交互模式下的ERC效果仍然是一个挑战。
#### 主要贡献
为了解决上述问题,本文提出了一种名为SUNET的新方法,该方法构建了一个基于说话人和话语(utterance)交互的异构网络,有效考虑了上下文的同时,还考虑了说话人的全局特性。具体而言,SUNET的主要贡献包括:
1. **构建Speaker-Utterance Interactive Heterogeneous Network**:SUNET首先构建了一个说话人-话语交互的异构网络,该网络不仅包含了话语节点,还包括了说话人节点,这样可以在考虑话语之间关系的同时,也考虑到说话人之间的联系。
2. **基于GNN的情感动态更新机制**:在异构网络的基础上,SUNET利用图神经网络对话语和说话人的表示进行动态更新。这一机制根据说话顺序来更新话语和说话人的表示,从而更好地捕捉到对话中的情感变化。
3. **定制化的节点更新策略**:为了充分利用异构网络的特点,SUNET分别为话语节点和说话人节点设计了不同的更新方法,确保每个节点都能得到最合适的表示更新。
#### 方法论
1. **网络结构**:
- **话语节点**:每个话语被视为一个节点,其包含的内容可以是文本、语音或两者的组合。这些节点通过边与其他话语节点相连,表示对话中的话语顺序。
- **说话人节点**:每个说话人都有一个对应的节点,该节点不仅包含了说话人的基本信息,还包含了该说话人在整个对话中的所有话语的汇总信息。
2. **节点特征更新**:
- **话语节点**:采用特定的GNN层(如GCN、GAT等),根据当前话语及其前后话语的内容,更新该话语节点的特征向量。
- **说话人节点**:说话人节点的更新则依赖于与其相关的所有话语节点的信息。通过聚合这些信息,可以更新说话人节点的特征向量,以反映说话人在对话中的情绪状态。
3. **训练与优化**:
- 使用多轮对话数据进行训练,并采用交叉验证等技术优化模型参数。
- 在训练过程中,可以引入额外的任务(如说话人身份识别)作为辅助任务,以进一步提升模型性能。
#### 实验结果
为了验证SUNET的有效性,作者在四个ERC基准数据集上进行了广泛的实验。实验结果显示,SUNET相比于现有方法取得了平均0.7%的性能提升。这表明,通过结合说话人和话语的交互信息,并利用图神经网络对其进行建模,可以有效地提升情感识别的效果。
SUNET为对话情感识别提供了一种新的视角,通过构建说话人-话语交互的异构网络并利用图神经网络进行建模,实现了对对话中情感变化的有效捕捉。这种方法不仅在理论上有一定的创新性,在实际应用中也具有很高的潜力。
1