只为小站
首页
域名查询
文件下载
登录
NLTK安装包和插件,Python3.4.1版本
自己搜集的NLTK的安装包,里面是Python3.4.1版本,可以安装Python,numpy,NLTK,还附带一些插件,例如jieba中文分词,matplotlib绘图,按照步骤安装,自然语言处理的基本功能都可以实现。
2023-11-21 06:08:18
49.83MB
NLTK
Python3.4.1
jieba
自然语言处理
1
jieba分词详解和实践
jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / …… … 在这篇文章中 上周:出现 1 次 时间:出现 2 次 白酒股:出现
2023-11-15 15:21:07
39KB
jieba
中文分词
1
flask_whoosh:一个简单的 python Flask 应用程序,它运行一个数据抓取器和一个 Whoosh 搜索引擎实现
烧瓶嗖嗖嗖嗖 一个简单的 python Flask 应用程序,它运行一个数据抓取器和一个 Whoosh 搜索引擎实现。 我写这篇文章主要是为了从 RSS 提要中抓取财经新闻(标题、出版日期时间、简要摘要),并将数据索引到 Whoosh 搜索引擎中。 只是一个尝试新事物的小爱好项目。 先决条件 BeautifulSoup - 烧瓶 - Whoosh - 以上所有都可以通过pip安装。 例如。 'pip 安装 Whoosh' 指示 1.安装需要的依赖2.添加你想抓取的RSS提要的url,即。 第 85 行,server.py。 请注意,您可能必须更改 scrape() 以迎合特定 RSS 提要的 XML 3. 使用“python server.py”运行服务器。 Flask 的默认端口为 5000 数据应该被抓取和索引,新文件将被添加到“/data”文件夹 用法 1. 要搜索特定术语,请
2023-04-12 22:45:09
35KB
Python
1
Python-jiebafast使用cpython重写了jieba分词库
jieba_fast 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升
2023-02-24 14:26:12
19.43MB
Python开发-自然语言处理
1
Python 58同城房价 bs4 浏览器多页爬虫 jieba中文分词 tf-idf向量化 kmeans聚类
Python 58同城房价bs4 beautiful soup爬虫获取 room_name room_type room_area room_addr0 room_addr1 room_price房价名称类型面积地址价格等 jieba中文分词 tf-idf向量化 kmeans聚类 浏览器多页爬虫 jupyter notebook numpy pandas sklearn 数据分析 数据挖掘
2023-02-22 22:22:27
113KB
jieba
NLP
爬虫
kmeans
1
jieba 0.42.1中文分词
Python Jieba中文分词工具实现分词功能
2023-02-15 18:34:44
53.31MB
python
1
python同义词替换的实现(jieba分词)
TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。 年休假 年假 年休 究竟 到底 回家场景 我回来了 代码 import jieba def replaceSynonymWords(string1): # 1读取同义词表,并生成一个字典。 combine_dict = {} # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割 for line in open(TihuanWords.txt, r, encoding='utf-8'): seperate_word = line.str
2023-01-29 10:29:39
48KB
ie
jieba
python
1
jieba结巴分词 支持lucene5
jieba分词器,支持lucene5版本。分词效果非常好,推荐使用。
2023-01-24 17:17:10
10.97MB
结巴
jieba
lucene
analysis
1
jieba-lucene-analiysis:jieba的lucene中文分析器和令牌生成器
捷巴-lucene分析 jieba使用的lucene中文分析器和Tokenizer( )。
2023-01-24 17:11:16
5KB
tokenizer
analyzer
chinese
lucene
1
使用python进行文本预处理和提取特征的实例
如下所示:
文本过滤
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点 result = re.sub(r'[^\u4e00-\u9fa5]', ,content)#只保留中文 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点和数字 r
2022-12-20 13:07:40
40KB
jieba
python
python实例
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
Spring相关的外文文献和翻译(含出处).zip
基于Matlab的IEEE14节点潮流计算.zip
先进PID控制Matlab仿真第4版-PDF+代码.zip
全国河流水文站坐标.xls
雷达信号处理仿真程序(MTI,MTD等)
2019综合测评仿真.zip
基于matlab的车牌识别系统设计
《MIMO-OFDM无线通信技术及MATLAB实现》高清PDF及源代码
Plexim Plecs Standalone 4.1.2 x64.7z
EEupdate_5.35.12.0 win10下修改intel网卡mac
MATLAB车牌识别系统
韦来生《数理统计》课后习题与答案
Alternative A2DP Driver 1.0.5.1 无限制版
毕业设计:基于Python的网络爬虫及数据处理(智联招聘)
西门子逻辑控制设计开发_3部10层
最新下载
永磁同步电机无感FOC(扩展卡尔曼滤波EKF位置观测控制)simulink仿真模型
惠威T200B音量关机保存
信心工具箱V2.99(XXG).rar
传世龙腾商业版复古引擎加配套服务端加配套登陆器
word to latex v2.56 完美破解汉化版(x64位)
simulink他励直流电动机串电阻启动仿真
LabWindows/CVI虚拟仪器测试技术及工程应用 高清.pdf版
MATLAB OPTI Toolbox工具箱,包括scip.mexw64文件和sedumi求解器,求解器相对比较全
simulink实现他励直流电动机直接启动仿真
飘逸传世引擎源代码
其他资源
课堂提问系统(按学号姓名随机挑选学生回答,记录平时成绩的小软件)
在线音乐网站
华为WLAN智能天线技术白皮书.pdf
Academic phrasebank enhanced PDF version 2018 navigable edition.pdf
Springboot+mybatis登录注册增删改查
基于C++的虚拟串口通讯
CRRedist2005_X64.msi
六爻排盘VC++写的有源码
Android综合案例——RSS阅读器实源代码+讲解
XML实验报告
models.zip
实现钉钉机器人自动发送自定义信息到钉钉群.rar
Run-Bevo-Run:类项目-源码
Fornax:使用类型安全的F#DSL定义页面模板的可编写脚本的静态网站生成器-源码
符号表工具iOS版-使用指南.pdf
AES算法源码~~~~~~~~~~~~
利用InstallShiled 10.5制作ArcEngine应用程序安装包
ActionScript 3.0 Game Programming University 2nd Edition
湖南科技大学 选课助手
非齐次非线性Schrodinger方程爆破解的L2-集中率
一键隐藏显示桌面图标小工具
st7789调试程序