句子
这个存储库包含一个 R 包,它是一个围绕句子 C++ 库的 Rcpp 包装器
句子是一个无监督的分词器,它允许使用字节对编码和 Unigrams 执行文本分词
它基于论文SentencePiece: A simple and languagedependent subword tokenizer and detokenizer for Neural Text Processing [ ]
句子 C++ 代码可从。 这个包目前包含版本 v0.1.84
这个 R 包具有与 R 包类似的功能
特征
R 包允许您
构建字节对编码 (BPE)、Unigram、Char 或 Word 模型
应用模型对文本进行编码
应用模型将 id 解码回文本
下载基于维基百科的预训练句子模型
安装
对于普通用户,从本地 CRAN 镜像install.packages("sentencepiece")安装包