队
为斯坦福问答数据集建立质量保证体系( )
请阅读此博客以获取详细信息: :
第一个文件create_emb.ipynb负责为训练数据集的Wikipedia文章中的所有句子和问题创建一个嵌入句子的字典。
第二个文件unsupervised.ipynb使用句子嵌入来计算句子和问题之间的距离,基于欧几里得和余弦相似度。 最后,它从距问题最短距离的每个段落中提取设置。 目前,它们的准确度分别为45%和63%。
最后一个文件将此问题视为监督学习问题,其中我拟合多项逻辑回归,随机森林和xgboost并创建20个特征-(2个特征代表一个句子的余弦距离和欧几里得。我将每个段落限制为10个句子)。 目标变量是具有正确答案的句子ID。 所以我有10个标签。 目前,这分别提供了63%,65%和69%的准确性。
未来工作:使用RNN获得确切答案
2021-05-06 16:59:37
9.23MB
系统开源
1