只为小站
首页
域名查询
文件下载
登录
jieba
.NET-master.zip
分词
jieba
.NET版本(C#实现) * 支持三种分词模式: - 精确模式,试图将句子最精确地切开,适合文本分析; - 全模式,把句子中所有的可以成词的词语都扫描出来, **速度非常快,但是不能解决歧义。 具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM; - 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 * 支持繁体分词 * 支持添加自定义词典和自定义词 * MIT 授权协议
2025-10-06 15:13:59
11.55MB
jieba
1
NLTK安装包和插件,Python3.4.1版本
自己搜集的NLTK的安装包,里面是Python3.4.1版本,可以安装Python,numpy,NLTK,还附带一些插件,例如
jieba
中文分词,matplotlib绘图,按照步骤安装,自然语言处理的基本功能都可以实现。
2023-11-21 06:08:18
49.83MB
NLTK
Python3.4.1
jieba
自然语言处理
1
jieba
分词详解和实践
jieba
分词是目前最好的 python中文分词组件。在讲解
jieba
分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / …… … 在这篇文章中 上周:出现 1 次 时间:出现 2 次 白酒股:出现
2023-11-15 15:21:07
39KB
jieba
中文分词
1
Python-
jieba
fast使用cpython重写了
jieba
分词库
jieba
_fast 使用cpython重写了
jieba
分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升
2023-02-24 14:26:12
19.43MB
Python开发-自然语言处理
1
Python 58同城房价 bs4 浏览器多页爬虫
jieba
中文分词 tf-idf向量化 kmeans聚类
Python 58同城房价bs4 beautiful soup爬虫获取 room_name room_type room_area room_addr0 room_addr1 room_price房价名称类型面积地址价格等
jieba
中文分词 tf-idf向量化 kmeans聚类 浏览器多页爬虫 jupyter notebook numpy pandas sklearn 数据分析 数据挖掘
2023-02-22 22:22:27
113KB
jieba
NLP
爬虫
kmeans
1
jieba
0.42.1中文分词
Python
Jieba
中文分词工具实现分词功能
2023-02-15 18:34:44
53.31MB
python
1
python同义词替换的实现(
jieba
分词)
TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。 年休假 年假 年休 究竟 到底 回家场景 我回来了 代码 import
jieba
def replaceSynonymWords(string1): # 1读取同义词表,并生成一个字典。 combine_dict = {} # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割 for line in open(TihuanWords.txt, r, encoding='utf-8'): seperate_word = line.str
2023-01-29 10:29:39
48KB
ie
jieba
python
1
jieba
结巴分词 支持lucene5
jieba
分词器,支持lucene5版本。分词效果非常好,推荐使用。
2023-01-24 17:17:10
10.97MB
结巴
jieba
lucene
analysis
1
jieba
-lucene-analiysis:
jieba
的lucene中文分析器和令牌生成器
捷巴-lucene分析
jieba
使用的lucene中文分析器和Tokenizer( )。
2023-01-24 17:11:16
5KB
tokenizer
analyzer
chinese
lucene
1
使用python进行文本预处理和提取特征的实例
如下所示:
文本过滤
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点 result = re.sub(r'[^\u4e00-\u9fa5]', ,content)#只保留中文 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点和数字 r
2022-12-20 13:07:40
40KB
jieba
python
python实例
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
QT自制精美Ui模板系列(一)桃子风格模板 - 二次开发专用
stm32f103+OLED12864+FFT音乐频谱(多种显示效果 提供原理图)
elsevier 爱思唯尔 系列期刊的word模板,template,单栏,双栏
VideoDownloadHelper去除120分钟时间限制-高级版.zip
模型预测控制MPC(模型预测电流控制,MPCC)的simulink仿真,2016b版本
python爬虫数据可视化分析大作业.zip
Spring相关的外文文献和翻译(毕设论文必备)
SSM外文文献和翻译(毕设论文精品).doc
csma/ca和csma/cd的matlab仿真源代码带有详细的注释
EBSD分析软件——Channel5下载安装教程
拾荒者.exe同时ID扫描器IP扫描器
20200318附加-2019年电赛综合测评方案详细计算过程(pdf版本,有朋友反映word版本乱码,特意转为pdf)
IBM CPLEX 12.10 学术版 mac操作系统安装包
科研伦理与学术规范 期末考试2 (40题).pdf
Autojs 例子 源码 1600多个教程源码
最新下载
软件是这样“炼”成的从软件需求分析到软件架构设计(中文高清pdf版)-其它文档类资源
GasCalc_AGA8—92DC_
R-Studio数据恢复v8.16 中文已注册版.rar
AMADA的AP100软件的 安装说明书
ap100 4.0破解文件3
HaRepacker3.5 Modified
KT0613.zip
Python实现Oracle数据库同步
系统级封装导论整体系统微型化.pdf
ap3g2-k9w7-tar.153-3.JPJ3a.tar
其他资源
生物医学信号处理 杨福生.pdf
教务信息管理系统(JAVA源码+sql+文档+视频)
IEEE3机9节点潮流计算matlab程序
分支限界法求旅行商问题
Hibernate jar包
星巴克数据分析案例及数据集.zip
数字调制解调技术的MATLAB与FPGA实现-源程序
android zigbee通信
用java实现ping功能
App Inventor2 demo.zip
高德V6.2-V2.01-V4.7主程序.rar
ACM大学生程序设计竞赛在线题库精选题解-赵端阳(1).pdf
语料库,自己整理的,有需要的吗
基于神经网络的短期负荷预测研究
华电《电力系统暂态分析》期末复习卷5套.pdf
英雄:Aplicação后端,前端e移动通信NodeJS,React e React Native-Semana OmniStack 11.0-源码
spoilerwall:Spoilerwall在网络强化领域引入了一个全新的概念。 避免破坏所有端口上的电影来进行扫描!-源码
Arduino 负温度系数热敏电阻(NTC)测温
STM32W108体系结构
电子商务网站+sqlserver
OPENCV表情识别
手势样本库
手把手微信jsapi公众号支付教程
JAVA-WEB单点登录实例
华为认证HCNA-RS(HCDA)全套PPT