更新:现在可以嵌入预训练的通用句子编码器和BERT句子转换器。阅读。 Top2Vec Top2Vec是用于主题建模和语义搜索的算法。它会自动检测文本中存在的主题,并生成联合嵌入的主题,文档和单词向量。训练Top2Vec模型后,您可以: 获取检测到的主题数。 获取主题。 获取主题大小。 获取层次结构主题。 通过关键字搜索主题。 按主题搜索文档。 通过关键字搜索文档。 查找类似的单词。 查找类似的文档。 使用公开模型 有关其工作原理的更多详细信息,请参见。 好处 自动查找主题数。 无需停用词列表。 无需词干/词形限制。 适用于短文本。 创建联合嵌入的主题,文档和单词向量。 内置搜索功能。 它是如何工作的? 该算法所做的假设是,许多语义上相似的文档都表明了一个潜在的主题。第一步是创建文档和单词向量的联合嵌入。将文档和单词嵌入向量空间后,算法的目标是找到文档的密集簇,然后确定哪些单词将这些文档
2023-03-09 13:56:41 6.48MB word-embeddings topic-modeling semantic-search bert
1
Big5-性格React烧瓶 这是一个项目,我们可以在该项目上构建一个React应用并调用端点进行预测。 使用的模型是随机森林回归器和随机森林分类器。 使用myPersonality项目( )的数据集对模型进行训练。 模型使用回归模型生成预测的人格得分,并使用分类模型针对每个人格特征生成二元类别的概率。 技术领域 后端烧瓶 前端React 修改后的准备 Create-react-app创建一个基本的React应用程序。 接下来,加载了引导程序,该引导程序使我们可以为每个屏幕尺寸创建响应式网站。 在App.js文件中,添加了带有textarea和Predict按钮的表单。 将每个表单属性添加到状态,并在按下Predict按钮时,将数据发送到Flask后端。 将样式添加到页面的App.css文件。 Flask应用程序具有POST终结点/预测。 它接受输入值作为json,将其转换为数组,并使
2023-03-08 15:34:48 116.93MB deep-learning reactjs word word-embeddings
1
SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上,部分管道进行了改动英文原版在。。 版本介绍 2020/03 / 03——最初最初版本本版本中只包含了最基本的功能,部分细节还有待优化和扩展。 核心算法 预训练模型ELMo +句向量模型SIF 词向量ELMo优势:1)通过大规模预训练,较早的TFIDF,TextRank等基于统计和图的具有更多的语义信息; 2)ELMo是动态的,可以改善一词多义问题; 3)ELMo通过Char -CNN编码,对生隐词非常友好; 4)不同层的ELMo可以捕捉不同层次的信息 句子矢量SIF优势:1)根据词频对词向量进行平滑逆频率变换,能更好地捕捉句子的中心话题; 2)更好地过滤通用词 最终关键焦点识别 首先对句子进行分词和词性标注,再利用正则表达式确定确定名词短语(例如:形容词+名词),将名词作为前缀关键字 最终关键利率
1
word_embeddings层词向量初始化可以参考的资源,txt文件分别有50、100、200、300维,从程序中直接读取就好
2021-11-29 16:01:16 822.24MB glove word_embeddings
1
更好的NER 具有双向LSTM-CNN的命名实体识别 命名实体识别的双向LSTM_CNN的keras实现。 原始论文可以在找到 该实现与原始论文的不同之处在于: 不考虑词典 使用存储桶可加快培训速度 使用nadam优化程序代替SGD 结果 该模型在约70个时期内产生90.9%的测试F1得分。 对于给定的体系结构,本文产生的结果是91.14体系结构(带有emb + caps的BILSTM-CNN) 数据集 conll-2003 论文网络模型 使用Keras构建网络模型 运行脚本 python3 nn.py 要求 0) nltk 1) numpy 2) Keras==2.1.2 3) T
2021-09-30 20:26:03 1.05MB tensorflow word-embeddings keras cnn
1
WordGCN 使用图卷积网络在词嵌入中整合句法和语义信息 WordGCN概述 SynGCN概述:SynGCN使用图卷积网络来利用依赖上下文学习单词嵌入。 对于词汇表中的每个单词,该模型旨在通过基于使用GCN编码的依存关系上下文预测每个单词来学习其表示形式。 请参阅本文的第5节以获取更多详细信息。 依存关系 与TensorFlow 1.x和Python 3.x兼容。 可以使用requirements.txt安装依赖项。 pip3 install -r requirements.txt 安装用于评估学习的嵌入的。 可以从此下载本文中使用的测试和有效数据集拆分。 用提供的文件夹替换原始的~
1
中文单词向量 该项目提供了100多个中文单词向量(嵌入),它们经过不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库的训练。 可以轻松获得具有不同属性的预训练向量,并将其用于下游任务。 此外,我们提供了一个中文类比推理数据集CA8和一个评估工具包,供用户评估其词向量的质量。 参考 如果使用这些嵌入和CA8数据集,请引用该论文。 沉力,赵哲,胡仁芬,李文思,刘涛,杜小勇, ,ACL 2018。 @InProceedings{P18-2023, author = "Li, Shen and Zhao, Zhe and Hu, Renfen and Li, Wensi and Liu, Tao and Du, Xiaoyong", title = "Analogical Reasoning on Chinese M
2021-06-03 19:26:17 354KB word-embeddings embeddings chinese embedding
1