textacy:NLP,spaCy之前和之后
textacy是一个基于高性能spaCy库的Python库,用于执行各种自然语言处理(NLP)任务。 通过将基础知识-令牌化,词性标记,依赖项解析等-委托给另一个库, textacy主要关注于之前和之后的任务。
产品特点
通过用于处理一个或多个文档的便捷方法访问spaCy,并通过自定义扩展名和自动语言识别扩展其功能,从而为文本应用正确的spaCy管道
下载包含文本内容和元数据的数据集,从国会演讲到历史文献再到Reddit评论
轻松以多种常用格式在磁盘之间传输数据
清理,规范化和浏览原始文本-在使用spaCy处理之前
灵活地从处理过的文档中提取单词,n-gram,名词块,实体,首字母缩写词,关键词和其他感兴趣的元素
通过各种相似性指标比较字符串,集合和文档
对文档进行标记和向量化,然后训练,解释和可视化主题模型
计算各种文本可读性统计信息,包括Flesch-Kincaid等级水平,SMOG索引和多语种Flesch Reading Ease
...还有更多!
链接
下载: :
文档: :
源代码: :
错误跟踪程序: :
维
1