只为小站
首页
域名查询
文件下载
登录
jieba-lucene-analiysis:jieba的lucene中文分析器和令牌生成器
捷巴-lucene分析 jieba使用的lucene中文分析器和Tokenizer( )。
2023-01-24 17:11:16
5KB
tokenizer
analyzer
chinese
lucene
1
使用python进行文本预处理和提取特征的实例
如下所示:
文本过滤
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点 result = re.sub(r'[^\u4e00-\u9fa5]', ,content)#只保留中文 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点和数字 r
2022-12-20 13:07:40
40KB
jieba
python
python实例
1
上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例
上市公司年报_Python中jieba_数字化_关键词词频统计_程序+样例
2022-10-13 18:48:03
245KB
python
词频统计
上市公司年报
数字化
基于jieba、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
基于jieba、gensim.word2vec、LogisticRegression的搜狐新闻文本分类-附件资源
2022-09-23 14:39:28
106B
1
《中文jieba分词》总结
针对jieba分词作业做一个总结,方便以后查看。 中文分词 分词,即切词,在NLP文本预处理中经常使用一些方法来对文本进行分词,从而使文本从“字序列”升级到“词序列”。 为什么要进行分词?在中文中,一个个汉字有其自身的含义,但是组成词语时,其含义可能会发生很大的变化,使得之后进行文本处理任务时不能很好的理解句子的含义。(比如“和”,“平”,“和平”,三者的含义有很大的不同。)另外,从字序列升级成词序列,可以使模型能够得到更高级的特征。 分词算法有很多,比如正向最大匹配算法,逆向最大匹配算法,双向最大匹配算法,基于统计的分词方法,隐马尔可夫模型分词法,神经网络分词法等等。 jieba分词 ji
2022-06-27 16:44:41
60KB
ie
jieba
中文分词
1
jieba词库+百度词库 (2).zip
包含jieba中文分词词库和百度中文分词词库,十分全面完整,总共有六十多万个词
2022-06-13 09:28:23
2.51MB
自然语言处理
人工智能
词库
1
Python统计西游记主要人物出场次数(使用jieba分词).zip
#Python统计西游记主要人物出场次数(使用jieba分词) 1. 建立西游记主要人物表及其别名; 2. 读入西游记原文txt文件并使用jieba分词; 3. 统计所有分词中出现各人名的次数。
2022-05-09 12:58:31
800KB
python
jieba
西游记
统计
Python编写的支持中文词云(wordcloud)GUI界面程序
Python编写的词云分析界面程序: 调用第三方库wordcloud jieba,生成介面操作的可执行文件。
2022-05-07 10:03:13
37.85MB
Python
wordcloud
GUI
jieba
1
news-search-engine:新闻搜索引擎
新闻搜索引擎 使用方法 安装python 3.4+环境(推荐或 ) 安装lxml html解析器,命令为pip install lxml 安装jieba分词组件,命令为pip install jieba 安装Flask Web框架,命令为pip install Flask 进入web文件夹,运行main.py文件 :浏览器,访问输入关键字开始测试 如果想抓取最新新闻数据并编制索引,一键运行./code/setup.py ,再按上面的方法测试。 2020.4.5:添加抓取的爬虫程序。先运行./code/spider.chinanews.com.py爬取最近5天新闻(约2500条);然后注释./
2022-05-03 12:21:54
7.9MB
search-engine
flask
news
jieba
1
flask jieba切词 api + swaggerui
使用flask框架的完整python api. 关于jieba分词的使用。并且使用swagger ui良好的展示api文档。
2022-04-13 23:56:51
5KB
flask
swagger
ui
flask
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
EEupdate_5.35.12.0 win10下修改intel网卡mac
中国地面气候资料日值数据集(V3.0)-201001201912.rar
代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf
VideoDownloadHelper去除120分钟时间限制-高级版.zip
基于Matlab的IEEE14节点潮流计算.zip
全国河流水文站坐标.xls
航迹融合算法MATLAB仿真程序
中国地面气象站观测数据2000-2021
Steam离线安装版
2019综合测评仿真.zip
Vivado license 永久
刚萨雷斯《数字图像处理》第四版答案.pdf
PowerBI视觉对象共计271组,更新日期2021.01.20日.zip
simulink仿真实现光伏发电MPPT+能量管理
MPC 模型预测控制matlab仿真程序
最新下载
protues与keil联合仿真51单片机跑马灯实例
uCOS-III 应用开发指南
VMware-workstation-5.5.3-34685安装文件【含安装序列号】
第四版传热学课后习题答案 杨世铭-陶文铨
通用fastboot工具
M64-M65-M66-M50-M520A-M500系列维护手冊.pdf
亚龙AVR及STC单片机下载器
基于PFC的6.0GBM模型:泰森多边形法下的矿物比例调整单轴压缩与巴西劈裂研究,PFC6.0GBM模型 基于泰森多边形的GBM模型 单轴压缩or巴西劈裂都有 区分不同的矿物组分,可以改变矿物所占比例
技嘉GA-970A-DS3P rev.1.0主板bios,增加nvme驱动
ONENOTE2016安装包
其他资源
多种棋牌搭建教程
简单的梯度下降C++实现
OpenSees Command Language Manual.pdf
朴素贝叶斯邮件分类器(包括源代码和数据)
C++学生信息管理系统(源码+数据库+文档说明)
labview 关于时间格式的各种互相转换及处理vi,时分秒处理,非常实用
5G NR 信号处理算法英文版【书】
尚硅谷_宋红康_JavaSE课件
c++实现四则运算器源码 支持括号
机械工程设计分析和MATLAB应用(第四版)
javax.persistence-api-2.2.jar
RS485隔离通信电路设计
计算机组成与设计++硬件软件接口+原书第5版答案
stm32 原理图库以及封装库
Python小游戏源码-飞扬的小鸟游戏源码
C#控制台星空模拟程序
visual c++ vc编写windows service服务 源程序.zip
IntelliJ IDEA 代码编辑区迷你缩放图插件 CodeGlance 官方最新版
01_myCode_手动集成极光推送
Deep Learning with R
android下的串口读写及数据保存
google earth api
2015年美赛O奖特等奖官方原版论文