文本分割作为监督学习任务 该存储库包含代码和补充材料,这些信息和补充材料是训练和评估模型所必需的,如论文“将 Downalod所需资源 wiki-727K,wiki-50数据集: word2vec: 在configgenerator.py中填充相关路径,并执行脚本(git存储库包括Choi数据集) 创建环境: conda create -n textseg python=2.7 numpy scipy gensim ipython source activate textseg pip install http://download.pytorch.org/whl/cu80/torch
2021-10-14 10:06:22 5.05MB nlp machine-learning deep-learning neural-network
1
淘宝专用词库【官方推荐】.scel.转换text
2021-10-13 18:09:17 98KB nlp分词 淘宝
1
中文新词识别技术综述.pdf
2021-10-13 16:08:10 370KB 机器学习 NLP
DeepSegment:一个有效的句子分割器! DeepSegment可作为免费使用的API( )以及通过的可自我托管的服务提供 注意:对于原始实现,请使用此存储库的“ master”分支。 代码文档位于 安装: # Tested with (keras==2.3.1; tensorflow==2.2.0) and (keras==2.2.4; tensorflow==1.14.0) pip install --upgrade deepsegment 支持的语言: zh-英文(已接受各种来源的资料训练) fr-法语(仅Tatoeba数据) 它-意大利语(仅Tatoeba数据) 用
2021-10-13 14:13:26 22KB nlp deep-learning text segmentation
1
文件中包含:(代码+分析) 1.最小编辑距离 2.文本分类 3.文本聚类 4.文本对齐
2021-10-13 11:07:09 89.92MB 自然语言处理
nltk_data.tar.gz
2021-10-13 10:48:01 533.72MB Developer NLP python
1
DocRED数据集,文档级关系提取任务可以使用
2021-10-13 10:07:09 160.43MB NLP RE 关系提取
1
spacy是常用的python做NLP的包。适合spacy 2.3.0,github上中文的spacy语言包下载巨慢,这个希望快一点。MIT。
2021-10-12 18:48:24 75.22MB python spacy NLP
1
XLNet-Pytorch 使用Pytorch包装器可轻松实现XLNet! 您可以看到XLNet Architecture如何以小批量(= 1)进行预训练的示例。 用法 $ git clone https://github.com/graykode/xlnet-Pytorch && cd xlnet-Pytorch # To use Sentence Piece Tokenizer(pretrained-BERT Tokenizer) $ pip install pytorch_pretrained_bert $ python main.py --data ./data.txt --tokenizer bert-base-uncased \ --seq_len 512 --reuse_len 256 --perm_size 256 \ --bi_data True --mask_alpha 6 --mask_beta 1 \ --num_predict 85 --mem_len 384 --num_epoch 100 另外,您可以轻松地在运行代码。 纸中预训练的
2021-10-12 09:54:59 545KB nlp natural-language-processing pytorch bert
1
NLP之相似语句识别--特征工程篇:bow+tfidf+svd+fuzzywuzzy+word2vec-附件资源
2021-10-11 19:51:36 23B
1