NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论.
1
本资源属于代码类,是一些nlp工具的使用 nlp 工具 word2vec nltk textblob crf++ (1)机器人 (2)中文翻译,及繁体转简体 (3)关键词提取,主题提取,摘要提取 (4)命名体识别 (5)分词 (6)情感分析,正负类分析 (7)近义词,同义词,句子相似性 (8)聚类,监督,无监督 (9)词性标注 (10)词向量提取
2022-11-05 14:56:59 1.49MB nlp 机器学习
1
恢复上升 简历解析器和摘要器工具可对简历进行分类,并根据用户要求对简历进行排名。 数据集 包含1000个以csv格式标记的简历(根据特定简历所属的主要类别/类别进行标记)。 我们将使用此csv格式的简历数据集来训练我们的模型以进行分类。 然后,我们的模型应该能够处理任何看不见的简历。 参考文件: Utils / Analysis.ipynb :数据清理+预处理+可视化+见解 Utils / Summarize.ipynb :恢复汇总算法 Utils / pdftotext.ipynb :使用pdfminer将odf转换为文本 Utils / Modelling.ipynb :主文件+代表性更改+培训+模型比较+测试 Utils / naive_bayes.ipynb :多项朴素贝叶斯实现 Utils / svm.ipynb :svm实现 Utils / clean_data1.csv :
2022-10-05 15:44:09 8.42MB nlp machine-learning ocr nltk
1
NLTK-停用词文件(各国语言)
2022-08-03 13:06:15 33KB 停用词
1
1.用于解决 nltk.stem.WordNetLemmatizer()时报错BadZipFile(“File is not a zip file“)的解决方法; 2.需要将文件解压为omw-1.4;
2022-07-13 13:12:25 11.55MB nltk语料库
1
汇总整理一套Python网页爬虫,文本处理,科学计算,机器学习和数据挖掘的兵器谱。 1. Python网页爬虫工具集 一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动手爬数据,这个时候,爬虫就显得格外重要了,幸好,Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获取和清洗数据,也就从这里开始了: 1.1 Scrapy 鼎鼎大名的Scrapy,相信不少同学都有耳闻,课程图谱中的很多课程都是依靠Scrapy抓去的,这方面的介绍文章有很多,推荐大牛pluskid早年的一篇文章:《Scr
2022-06-26 14:08:07 114KB nltk python python函数
1
第一种方法(线上安装) (该方法时间长,建议使用第二种方法) ①安装NLTK库 打开anaconda prompt,在命令行里面输入 pip install nltk 当界面显示 successfully built nltk ,说明NLTK库已经安装成功了 ②下载NLTK的book数据包 成功安装NLTK库后,在anaconda prompt界面输入python进入交互模式(或者打开python编辑器spyder,新建一个新文件) 运行以下代码 import nltk nltk.download() 等待,将会出现如下的界面 选中需要下载的book包和下载路径,点击download(该过程
2022-05-26 21:21:58 92KB nltk prompt 安装
1
采用Python编程和nltk库 统计中英文文本文件中词汇出现的频率并进行统计分析
2022-05-09 02:56:52 1.25MB 自然语言处理
1
summary.py 简单的基于多语言Python和NLTK的文本摘要实现。 安装 $ pip install pysummarize 设置 使用之前,请确保已下载stopwords和punkt NLTK软件包: import nltk nltk . download ([ 'stopwords' , 'punkt' ]) 快速开始 from summarize import summarize summarize ( "Alice and Bob are friends. Alice is fun and cuddly." " Bob is cute and quirky. Together they go on wonderful" " adventures in the land of tomorrow. Alice's cuddline
2022-05-07 00:38:14 7KB Python
1
summarize.py, 使用nltk总结文章的python 脚本 summarize.py使用nltk总结文章的python 脚本。需要:python2.7/python 3nltk ( 如果使用 python 3,请参见下面nltk stopwords 语料库( python -c 'im
2022-05-06 00:58:51 5KB 开源
1