整合格式为 :字 BIO标签 格式,可以直接使用主流NER模型进行训练
2021-06-12 16:10:21 11.52MB NER NLP CORPUS
1
Inverted_Index_Generator 使用斯坦福 NLP 模块创建倒排索引。 在此处找到所有 JAR 文件: : 克兰菲尔德收藏: : 该项目的详细信息: :
2021-06-11 11:06:19 11KB Java
1
智能终端大数据、NLP与个人黑产防范
2021-06-10 17:01:10 44.15MB 个人黑产防范
基于BERT的蒸馏实验 参考论文《从BERT提取任务特定的知识到简单神经网络》 分别采用keras和pytorch基于textcnn和bilstm(gru)进行了实验 实验数据分割成1(有标签训练):8(无标签训练):1(测试) 在情感2分类服装的数据集上初步结果如下: 小模型(textcnn&bilstm)准确率在0.80〜0.81 BERT模型准确率在0.90〜0.91 蒸馏模型准确率在0.87〜0.88 实验结果与论文某些基本一致,与预期相符 后续将尝试其他更有效的蒸馏方案 使用方法 首先finetune BERT python ptbert.py 然后把BERT的知识蒸馏到小模型里
2021-06-10 13:46:28 30.23MB nlp classification bert distillation
1
vgg加载训练好的模型和参数,包括vgg16_exported.json和vgg16_exported.h5,本人亲测,代码有效!!!打包文件和代码!!! 本人第一次实现图像识别,CV的入门级别,却难到了多少人,都是因为网上资料不全!!! 模型本人还自写了一次!和提供的vgg16_exported.json结构一模一样!全在代码里!!! 代码演示:https://blog.csdn.net/mujie2015/article/details/117756243
2021-06-10 09:08:11 190B cv nlp vgg
1
NLTK Stopwords 停用词
2021-06-10 09:00:21 21KB nlp
1
HanLP: Han Language Processing | | | | | 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PSD四套规范)、语义角色标注、词干提取、词法语法特征提取、抽象意义表示(AMR)。 量体裁衣,HanLP提供RESTful和nati
1
BosonNLP_sentiment_score 知网Hownet 清华大学——李军中文褒贬义词典 台湾大学NTUSD 其他词典和分类
2021-06-08 00:12:25 2.55MB NLP 舆情
1
下载解压后,将config.json文件下的“config_path”的值里面那两个点和斜杠去掉, 即"config_path": "configs/cnn_50_100_512_4096_sample.json" 然后把整个文件夹拖进项目里即可使用
2021-06-07 18:42:39 368.44MB nlp elmo
1
实验 词汇分析 1)使用任意分词方法编写算法实现汉语自动分词程序; 2)编写直接调用分词工具(jieba分词,中科院分词等)进行分词的程序; 3)用两种方法,给出至少50个句子的分词结果(以附件形式); 4)分别计算出两种分词结果的正确率,给出计算依据。
2021-06-07 14:07:10 33.55MB 自然语言处理 中文分词 jieba分词
1