NLPCC2016-WordSeg-微博 NLPCC 2016微博分词评估项目 ##任务说明 单词是自然语言理解的基本单元。 但是,中文句子由连续的汉字组成,没有自然的分隔符。 因此,中文分词已成为中文自然语言处理的首要任务,它可以识别句子中单词的顺序并标记单词之间的边界。 与流行的二手新闻数据集不同,我们使用了来自新浪微博的更多非正式文章。 培训和测试数据包含来自各个主题的微博,例如金融,体育,娱乐等。 每个参与者都可以提交三个运行:封闭式运行,半开放式运行和开放式运行。 在封闭的轨道上,参与者只能使用在提供的培训数据中找到的信息。 排除了诸如从外部获得的字数,部分语音信息或姓名列表之类的信息。 在半公开赛道中,除了提供的训练数据之外,参与者还可以使用从提供的背景数据中提取的信息。 排除了诸如从外部获得的字数,部分语音信息或姓名列表之类的信息。 在公开赛道上,参与者可以使用应该
1
快速,准确的越南语分词器 如所述,RDRsegmenter的实现: @InProceedings{NguyenNVDJ2018, author={Dat Quoc Nguyen and Dai Quoc Nguyen and Thanh Vu and Mark Dras and Mark Johnson}, title={{A Fast and Accurate Vietnamese Word Segmenter}}, booktitle={Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018)}, pages={2582--2587}, year={2018} } 每当将RDRsegmenter用于产生已发布的结果或将其合并到其他软件中时,请引用
1
句子 这个存储库包含一个 R 包,它是一个围绕句子 C++ 库的 Rcpp 包装器 句子是一个无监督的分词器,它允许使用字节对编码和 Unigrams 执行文本分词 它基于论文SentencePiece: A simple and languagedependent subword tokenizer and detokenizer for Neural Text Processing [ ] 句子 C++ 代码可从。 这个包目前包含版本 v0.1.84 这个 R 包具有与 R 包类似的功能 特征 R 包允许您 构建字节对编码 (BPE)、Unigram、Char 或 Word 模型 应用模型对文本进行编码 应用模型将 id 解码回文本 下载基于维基百科的预训练句子模型 安装 对于普通用户,从本地 CRAN 镜像install.packages("sentencepiece")安装包
1
中文分词 本项目为中文分词任务baseline的代码实现,模型包括 BiLSTM-CRF 基于BERT的+ X(softmax / CRF / BiLSTM + CRF) 罗伯塔+ X(softmax / CRF / BiLSTM + CRF) 本项目是的项目。 数据集 数据集第二届中文分词任务中的北京大学数据集。 模型 本项目实现了中文分词任务的baseline模型,对应路径分别为: BiLSTM-CRF BERT-Softmax BERT-CRF BERT-LSTM-CRF 其中,根据使用的预训练模型的不同,BERT-base-X模型可转换为Roberta-X模型。 要求 此仓库已在Python 3.6+和PyTorch 1.5.1上进行了测试。 主要要求是: tqdm scikit学习 火炬> = 1.5.1 :hugging_face: 变压器== 2.2.2 要解决环境问题,请运行:
1
论文《汉语表达的深度学习需要分词吗?》
2021-05-06 12:09:13 2.76MB nlp 自然语言处理
1