上传者: 42172972
|
上传时间: 2021-11-10 17:00:55
|
文件大小: 12.46MB
|
文件类型: -
自然语言预处理(NLPre)
主要版本更新! NLPre 2.0.0
后端NLP引擎pattern.en已被spaCy v 2.1.0取代。 这是针对pattern.en某些问题(包括不良lemmatization)的主要解决方案。 (例如,细胞因子->细胞牛)
对python 2的支持已被删除
在replace_from_dictionary支持自定义词典
在replace_from_dictionary使用后缀而不是前缀的选项
URL替换现在可以删除电子邮件
token_replacement可以删除符号
NLPre是一个文本(预处理)库,可帮助消除实际数据中发现的某些不一致之处。 纠