孪生LSTM网络(Siamese-LSTM) 本项目是基于孪生LSTM网络+注意力机制+曼哈顿距离(Manhattan distance)实现的句对相似度计算。 中文训练数据为蚂蚁金服句对数据,约4万组,正负样本比例1:3.6;英文训练数据来自Kaggle上的Quora句对数据,约40万组,正负样本比例1:1.7。新增一组翻译数据:使用Google Translator将Quora数据翻译成中文。 资料 参考文献 中国大陆可能无法访问《How to predict...Manhattan LSTM》一文,请直接查看本项目中附件之参考博客 其它数据 英文词向量: 英文词向量: 中文词向量: 工程参考 Original author's GitHub 一些网络设计思路 使用 训练 $ python3 train.py $ type cn for Chinese Data or en for
2023-03-17 22:42:46 40.91MB keras attention manhattan-distance siamese-lstm
1
按键文字 想法是建立一个将关键字作为输入并生成句子作为输出的模型。 模型: 已经建立了两个模型: 使用T5的基本大小= 850 MB可以在这里找到: : 使用T5,小尺寸= 230 MB,可以在这里找到: : 用法: from transformers import AutoTokenizer , AutoModelWithLMHead tokenizer = AutoTokenizer . from_pretrained ( "gagan3012/keytotext-small" ) model = AutoModelWithLMHead . from_pretrained ( "gagan3012/keytotext-small" ) 这使用了我构建的自定义流式compopnet: pip install streamlit-tags 也可以在上找到安装 演示: 例
2023-01-29 10:30:02 8.04MB nlp keywords sentences t5
1
句子相似度簇 sensim_cluster使用Levenshtein距离计算文本数据(来自文件)的相似度,并对结果进行聚类(分层聚类)。 聚类结果以树状图显示。 用法 准备数据文件 在下面运行该程序 # -*- coding: utf-8 -*- import sys from sensim_cluster . sensim_cluster import SensimCluster from matplotlib import pyplot as plt from scipy . cluster . hierarchy import dendrogram cluster = SensimCluster ( 'YOUR_DATAFILE_PATH' ) ids = cluster . get_ids () result = cluster . ward () mod_ids = [ id [
1
对论文的自己的一点理解,希望得到指正和指点。有些东西可能并不是那么正确,欢迎大家共同指正。
2021-12-08 15:35:29 596KB 论文理解
1
A convolutional neural network for modelling sentences论文及翻译
2021-11-24 13:07:06 1.08MB NLP 期刊阅读
1