### SUNET: Speaker-Utterance Interaction Graph Neural Network for Emotion Recognition in Conversations #### 背景与意义 在当今社会,随着人工智能技术的飞速发展,对话系统中的情感识别(Emotion Recognition in Conversations, ERC)已经成为了一个重要的研究领域。通过捕捉对话中说话人的情绪变化,ERC在客户服务、心理治疗、娱乐等多个领域都有着广泛的应用前景。近年来,图神经网络(Graph Neural Networks, GNNs)因其能够捕捉复杂非欧几里得空间特征的能力,在ERC任务中得到了广泛应用。然而,如何有效地建模对话过程,以提高在复杂交互模式下的ERC效果仍然是一个挑战。 #### 主要贡献 为了解决上述问题,本文提出了一种名为SUNET的新方法,该方法构建了一个基于说话人和话语(utterance)交互的异构网络,有效考虑了上下文的同时,还考虑了说话人的全局特性。具体而言,SUNET的主要贡献包括: 1. **构建Speaker-Utterance Interactive Heterogeneous Network**:SUNET首先构建了一个说话人-话语交互的异构网络,该网络不仅包含了话语节点,还包括了说话人节点,这样可以在考虑话语之间关系的同时,也考虑到说话人之间的联系。 2. **基于GNN的情感动态更新机制**:在异构网络的基础上,SUNET利用图神经网络对话语和说话人的表示进行动态更新。这一机制根据说话顺序来更新话语和说话人的表示,从而更好地捕捉到对话中的情感变化。 3. **定制化的节点更新策略**:为了充分利用异构网络的特点,SUNET分别为话语节点和说话人节点设计了不同的更新方法,确保每个节点都能得到最合适的表示更新。 #### 方法论 1. **网络结构**: - **话语节点**:每个话语被视为一个节点,其包含的内容可以是文本、语音或两者的组合。这些节点通过边与其他话语节点相连,表示对话中的话语顺序。 - **说话人节点**:每个说话人都有一个对应的节点,该节点不仅包含了说话人的基本信息,还包含了该说话人在整个对话中的所有话语的汇总信息。 2. **节点特征更新**: - **话语节点**:采用特定的GNN层(如GCN、GAT等),根据当前话语及其前后话语的内容,更新该话语节点的特征向量。 - **说话人节点**:说话人节点的更新则依赖于与其相关的所有话语节点的信息。通过聚合这些信息,可以更新说话人节点的特征向量,以反映说话人在对话中的情绪状态。 3. **训练与优化**: - 使用多轮对话数据进行训练,并采用交叉验证等技术优化模型参数。 - 在训练过程中,可以引入额外的任务(如说话人身份识别)作为辅助任务,以进一步提升模型性能。 #### 实验结果 为了验证SUNET的有效性,作者在四个ERC基准数据集上进行了广泛的实验。实验结果显示,SUNET相比于现有方法取得了平均0.7%的性能提升。这表明,通过结合说话人和话语的交互信息,并利用图神经网络对其进行建模,可以有效地提升情感识别的效果。 SUNET为对话情感识别提供了一种新的视角,通过构建说话人-话语交互的异构网络并利用图神经网络进行建模,实现了对对话中情感变化的有效捕捉。这种方法不仅在理论上有一定的创新性,在实际应用中也具有很高的潜力。
2024-09-05 17:14:59 1.18MB 机器学习 人工智能 深度学习
1
情绪识别:通过面部表情和语音进行双峰情绪识别
2024-03-04 20:54:19 161KB matlab face-detection emotion-recognition
1
情感识别 机器学习算法将人脸分为七类(即愤怒、厌恶、恐惧、快乐、悲伤、惊讶、中性)之一。
2022-05-31 11:15:14 248.46MB MATLAB
1
Speech_Emotion_Recognition
2022-03-14 16:14:48 20.41MB Python
1
使用指令的操作对SVM、MLP、LSTM算法进行了训练和测试的操作,采用CASIA数据集进行训练,需要安装python的语音处理报librosa,还有可以使用opensmile的部分,内容较为丰富
2022-03-14 00:09:48 73.04MB 语音情感识别 SVM LSTM MLP
1
DEAP数据集自动情感识别 该项目使用来自DEAP数据集的EEG信号,使用集成的一维CNN,LSTM和2D,3D CNN以及带有LSTM的级联CNN将情绪分为4类。
2022-03-08 12:18:36 22.96MB JupyterNotebook
1
MevonAI-语音情感识别 识别音频段中多个发言人的情绪· 在这里尝试演示 目录 说话人二值化 特征提取 CNN模型 训练模型 贡献 执照 致谢 常问问题 关于该项目 该项目的主要目的是识别呼叫音频中多个说话者的情绪,作为呼叫中心客户满意度反馈的应用程序。 建于 的Python 3.6.9 Tensorflow-Keras 解放军 入门 按照以下说明在本地计算机上设置项目。 安装 创建一个python虚拟环境 sudo apt install python3-venv mkdir mevonAI cd mevonAI python3 -m venv mevon-env source mevon-env/bin/activate 克隆仓库 git clone https://github.com/SuyashMore/MevonAI-Speech-Emotion-Recog
1
情绪识别的例子 使用Jaffe数据库的情感识别示例 我们将使用的主要库是Scikit Learn。 我建议将Anaconda Python发行版用于与科学目的相关的所有内容。 import os import matplotlib . pyplot as plt import numpy as np from mpl_toolkits . axes_grid1 import ImageGrid from skimage . feature import local_binary_pattern as lbp from sklearn . neighbors import KNeighborsClassifier as KNN from sklearn . model_selection import KFold as KF from sklearn . model_selection
1
脑电情绪识别 HSE计算机科学学生项目 作者:Soboleva Natalia和Glazkova Ekaterina 脑电信号的准确分类可以为医学研究提供解决方案,以在早期阶段检测异常脑部行为以对其进行威胁。 在这项研究中,我们从另一个角度来看这个任务-情绪识别。 我们设计了卷积神经网络和递归神经网络的联合,使用自动编码器来压缩数据的高维数。 当前项目包括EEG数据处理,并使用AutoEncoder + CNN + RNN进行卷积 前处理 伪影-这是所有非脑源记录的活动的术语。 伪影可分为两类:生理伪影(来自大脑其他部位的虹膜,例如,身体)和外部生理伪影(例如,技术设备的北极)。 为了提取脑电图观察的最重要特征,必须进行预处理。 为了进行数据处理和可视化, 选择了用于人类神经生理数据(包括EEG)的开源Python软件。 在这一领域,有两种主要的最新方法可以处理EEG信号:小波变换和
2022-01-17 14:22:58 3.3MB JupyterNotebook
1
ets 此存储库为AUNets提供了PyTorch实现。 AUNets依赖于每个面部表情具有独立的和二进制的CNN的功能。 它适用于整体面部图像,即无需关键点或面部矫正。 项目页面: : 引文 @article{romero2018multi, title={Multi-view dynamic facial action unit detection}, author={Romero, Andr{\'e}s and Le{\'o}n, Juan and Arbel{\'a}ez, Pablo}, journal={Image and Vision Computing}, year={2018}, publisher={Elsevier} } 用法(火车) $./main.sh -GPU 0 -OF None # It will train AUNets (1
1