恢复上升 简历解析器和摘要器工具可对简历进行分类,并根据用户要求对简历进行排名。 数据集 包含1000个以csv格式标记的简历(根据特定简历所属的主要类别/类别进行标记)。 我们将使用此csv格式的简历数据集来训练我们的模型以进行分类。 然后,我们的模型应该能够处理任何看不见的简历。 参考文件: Utils / Analysis.ipynb :数据清理+预处理+可视化+见解 Utils / Summarize.ipynb :恢复汇总算法 Utils / pdftotext.ipynb :使用pdfminer将odf转换为文本 Utils / Modelling.ipynb :主文件+代表性更改+培训+模型比较+测试 Utils / naive_bayes.ipynb :多项朴素贝叶斯实现 Utils / svm.ipynb :svm实现 Utils / clean_data1.csv :
2022-10-05 15:44:09 8.42MB nlp machine-learning ocr nltk
1
NLTK-停用词文件(各国语言)
2022-08-03 13:06:15 33KB 停用词
1
1.用于解决 nltk.stem.WordNetLemmatizer()时报错BadZipFile(“File is not a zip file“)的解决方法; 2.需要将文件解压为omw-1.4;
2022-07-13 13:12:25 11.55MB nltk语料库
1
汇总整理一套Python网页爬虫,文本处理,科学计算,机器学习和数据挖掘的兵器谱。 1. Python网页爬虫工具集 一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动手爬数据,这个时候,爬虫就显得格外重要了,幸好,Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获取和清洗数据,也就从这里开始了: 1.1 Scrapy 鼎鼎大名的Scrapy,相信不少同学都有耳闻,课程图谱中的很多课程都是依靠Scrapy抓去的,这方面的介绍文章有很多,推荐大牛pluskid早年的一篇文章:《Scr
2022-06-26 14:08:07 114KB nltk python python函数
1
第一种方法(线上安装) (该方法时间长,建议使用第二种方法) ①安装NLTK库 打开anaconda prompt,在命令行里面输入 pip install nltk 当界面显示 successfully built nltk ,说明NLTK库已经安装成功了 ②下载NLTK的book数据包 成功安装NLTK库后,在anaconda prompt界面输入python进入交互模式(或者打开python编辑器spyder,新建一个新文件) 运行以下代码 import nltk nltk.download() 等待,将会出现如下的界面 选中需要下载的book包和下载路径,点击download(该过程
2022-05-26 21:21:58 92KB nltk prompt 安装
1
采用Python编程和nltk库 统计中英文文本文件中词汇出现的频率并进行统计分析
2022-05-09 02:56:52 1.25MB 自然语言处理
1
summary.py 简单的基于多语言Python和NLTK的文本摘要实现。 安装 $ pip install pysummarize 设置 使用之前,请确保已下载stopwords和punkt NLTK软件包: import nltk nltk . download ([ 'stopwords' , 'punkt' ]) 快速开始 from summarize import summarize summarize ( "Alice and Bob are friends. Alice is fun and cuddly." " Bob is cute and quirky. Together they go on wonderful" " adventures in the land of tomorrow. Alice's cuddline
2022-05-07 00:38:14 7KB Python
1
summarize.py, 使用nltk总结文章的python 脚本 summarize.py使用nltk总结文章的python 脚本。需要:python2.7/python 3nltk ( 如果使用 python 3,请参见下面nltk stopwords 语料库( python -c 'im
2022-05-06 00:58:51 5KB 开源
1
http://www.nltk.org/nltk_data/ 上下载的stopwords.zip,解决nltk.download("stopwords")无法成功的问题
2022-05-01 23:51:35 23KB nltk stopwords
1
由于'omw-1.4'需要到外网下载,在这里上传一个供不能用外网的下载使用
2022-04-27 13:37:50 25.4MB Python、nltk、omw
1