基于jieba、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
2022-09-23 14:39:28 106B
1
针对jieba分词作业做一个总结,方便以后查看。 中文分词 分词,即切词,在NLP文本预处理中经常使用一些方法来对文本进行分词,从而使文本从“字序列”升级到“词序列”。 为什么要进行分词?在中文中,一个个汉字有其自身的含义,但是组成词语时,其含义可能会发生很大的变化,使得之后进行文本处理任务时不能很好的理解句子的含义。(比如“和”,“平”,“和平”,三者的含义有很大的不同。)另外,从字序列升级成词序列,可以使模型能够得到更高级的特征。 分词算法有很多,比如正向最大匹配算法,逆向最大匹配算法,双向最大匹配算法,基于统计的分词方法,隐马尔可夫模型分词法,神经网络分词法等等。 jieba分词 ji
2022-06-27 16:44:41 60KB ie jieba 中文分词
1
包含jieba中文分词词库和百度中文分词词库,十分全面完整,总共有六十多万个词
2022-06-13 09:28:23 2.51MB 自然语言处理 人工智能 词库
1
#Python统计西游记主要人物出场次数(使用jieba分词) 1. 建立西游记主要人物表及其别名; 2. 读入西游记原文txt文件并使用jieba分词; 3. 统计所有分词中出现各人名的次数。
2022-05-09 12:58:31 800KB python jieba 西游记 统计
Python编写的词云分析界面程序: 调用第三方库wordcloud jieba,生成介面操作的可执行文件。
2022-05-07 10:03:13 37.85MB Python wordcloud GUI jieba
1
新闻搜索引擎 使用方法 安装python 3.4+环境(推荐或 ) 安装lxml html解析器,命令为pip install lxml 安装jieba分词组件,命令为pip install jieba 安装Flask Web框架,命令为pip install Flask 进入web文件夹,运行main.py文件 :浏览器,访问输入关键字开始测试 如果想抓取最新新闻数据并编制索引,一键运行./code/setup.py ,再按上面的方法测试。 2020.4.5:添加抓取的爬虫程序。先运行./code/spider.chinanews.com.py爬取最近5天新闻(约2500条);然后注释./
2022-05-03 12:21:54 7.9MB search-engine flask news jieba
1
使用flask框架的完整python api. 关于jieba分词的使用。并且使用swagger ui良好的展示api文档。
2022-04-13 23:56:51 5KB flask swagger ui flask
1
jieba青春有你2自定义分词词典,青春有你2评论爬取,青春有你2视频饭圈自定义分词词典,jieba分词Python分词词典
2022-03-28 09:45:31 499B jieba 分词词典 自定义 Python
1
jieba-0.42.1.tar.gz 半自动安装: 将 jieba 目录放置于当前目录 解压后运行 python setup.py install
2022-03-17 18:13:52 18.46MB 机器学习
1
思路: 1.读取所有文章标题; 2.用“结巴分词”的工具包进行文章标题的词语分割; 3.用“sklearn”的工具包计算Tf-idf(词频-逆文档率); 4.得到满足关键词权重阈值的词 结巴分词详见:结巴分词Github sklearn详见:文本特征提取——4.2.3.4 Tf-idf项加权 import os import jieba import sys from sklearn.feature_extraction.text import TfidfVectorizer sys.path.append(../) jieba.load_userdict('userdictTest.t
2022-03-15 16:37:57 72KB jieba python3 tf-idf
1