使用隐马尔可夫模型对中文文本进行分词
1
PPT中包含基于词典分词算法以及HMM(隐马尔可夫模型)算法,结巴分词(具体实现算法)等内容,PPT中包含基于词典分词算法以及HMM(隐马尔可夫模型)算法,结巴分词(具体实现算法)等内容
2021-10-19 14:18:25 3.8MB 中文分词
1
用朴素贝叶斯分类算法做中文文本分类-附件资源
2021-10-18 12:38:16 106B
1
中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,下载时请耐心等待。
1
本项目是自然语言处理NLP在中文文本上的一些简单应用,如文本分类、情感分析、命名实体识别等。 文本分类 数据集用的是头条的标题和对应文章分类数据。数据集来自这里: 文本分类的例子对应zh_article_classify_bilstm_attention.ipynb,这里构建的是BiLSTM+Attention的模型结构。 具体模型搭建如下: def create_classify_model(max_len, vocab_size, embedding_size, hidden_size, attention_size, class_nums): # 输入层 inputs = Input(shape=(max_len,), dtype='int32') # Embedding层 x = Embedding(vocab_size, embedding_size)(
2021-10-08 11:53:47 107.97MB 附件源码 文章源码
1
知识蒸馏在文本方向上的应用 模型相关等内容在有具体介绍。 目录 更新日志 2020.08.28 整理代码结构,抛弃借鉴的Bert模型,增加xlnet模型,预训练xlnet模型效果较差,可以在模型基础上再进行预训练,因此添加了模型预训练代码。 2020.07.15 修复bug,添加textGCN模型(单独训练,模型效果较差)。 2020.07.06 移除模型介绍&部分模型实现,增加使用说明及运行环境。 2020.05.28 增加了直接使用学生模型训练代码,并使用公开测试集完成测试。 运行环境 python 3.7 pytorch 1.1 (BERT模型参考Bert-Chinese-Text-Classification-Pytorch,有较多改动) transformers 3.0.2 torch 1.5.0 使用说明 下载Wikipedia_zh 中文维基百科 预训练词向量放入Knowl
2021-10-03 16:16:24 1.11MB pytorch knowledge-distillation bert Python
1
text2vec text2vec,中文文本给vetor。(文本向量化表示工具,包括词向量化,句子向量化) 特征 文本向量表示 字词粒度,通过腾讯AI Lab开放式的大规模扩展中文 (文件名:light_Tencent_AILab_ChineseEmbedding.bin密码:tawe),获取字词的word2vec矢量表示。 句子粒度,通过求句子中所有单词词嵌入的预先计算得到。 篇章粒度,可以通过gensim库的doc2vec得到,应用替代,本项目不实现。 文本相似度计算 基准方法,估计两个句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的前缀,然后计算两个句子词嵌入之间的余弦相似性。
2021-09-25 10:16:25 141KB nlp word2vec text-similarity similarity
1
BERT模型具有遮罩功能的正确错误字符 实在抱歉,之前做项目比较急,然后没有完全上传完文件,导致大家使用受阻,替换更新有人提醒该模型,近期发生,特意将奉上,提取码为:hhxx另外其中某些得文件也有发表,安心食用。 使用说明 保存预训练模型在数据文件夹下├──数据│├──bert_config.json │├──config.json │├──pytorch_model.bin │└──vocab.txt ├──bert_corrector.py ├──config.py ├──logger.py ├──Forecast_mask.py ├──README.md └──text_utils.py 运行bert_corrector.py可以进行bert_corrector.py 。 python bert_corrector.py 运行'predict_mask.py'可以直接观察用[m
2021-09-18 11:54:45 17.04MB Python
1
中文文本相似度/文本推理/文本匹配数据集——Chinese SNLI MultiNli
2021-09-07 10:45:17 19.19MB 文本匹配
1