伯特相似度
基于Google的BERT模型来进行语义相似度计算。代码基于tensorflow 1。
1.基本原理
简单来说就是将需要需要计算的相似性的两个句子先分解在一起,然后通过伯特模型获取获取整体的编码信息,然后通过全连接层将维,输出相似和不相似的概率。
1.1模型结构
模型结构所示如下:
1.1.1数据预处理
本文使用Bert模型计算相似度前,首先要对输入数据进行预处理,例如当要处理的文本是:
如何得知关闭借呗 想永久关闭借呗
首先进行文本按token化,切成分割的文字排列:
[如 何 得 知 关 闭 借 呗]
[想 永 久 关 闭 借 呗]
然后将两个切分后的句子,按照如下的方式
1