Python 58同城房价bs4 beautiful soup爬虫获取 room_name room_type room_area room_addr0 room_addr1 room_price房价名称类型面积地址价格等 jieba中文分词 tf-idf向量化 kmeans聚类 浏览器多页爬虫 jupyter notebook numpy pandas sklearn 数据分析 数据挖掘
2023-02-22 22:22:27 113KB jieba NLP 爬虫 kmeans
1
1、Microsoft.Bussines.CommonProxy.dll 框架核心API库 包括:常用加密解密,缓存集群,IP地址库,Html Parse,金额转换,GoogleMap Api,Google PR,ImageMagick(图片处理),SharpZipLib压缩解压缩,中文分词核心库 2、WebSystem.Framework.dll 框架核心API库 包括:与Discuz相关的集成登陆,Evaluator计算表达式,Excel相关处理,Pdf处理,Msmq消息队列处理,ThreadPool(线程池,用于并发处理) 3、FrameWork.Extension.Toolkit.dll 针对DotNet基类扩展方法核心库 4、WebSystem.Framework.DAO.dll 数据访问层核心库:包括 DbHelperSQL,MySqlDbHelper,AccessDbHelper,实体层,数据库连接池 等 5、WebSystem.WebControls.dll 常用服务器控件核心库 主要提供后台开发使用 6、Business.Processing.dll 业务处理核心类库(定义前后台业务处理基类,支付,手机短信,序列号,用户等级,查询中心,报表处理中心等) 2.0新增加了 1、WebSystem.FrameWork.SearchEngine.dll 搜索引擎核心处理类库(提供并行中文分词、分布式并行采集器) 增加集成了中科院中文分词和盘古中文分词,并进行了并行改进,大大提高了分词性能 2、另外WebSystem.WebControls.dll 中新增加了100多个各类AJAX控件,另外集成并改写了全套extjs库,同时提供了一个WEB ERP的DEMO 3、另外在WebSystem.Framework.DAO.dll 数据访问层核心库,中增加了对Oracle、Sqlite、的处理功能,对所有的数据访问层的CRUD均增加了相关的 XML处理功能 也就是说所有的CRUD操作只要提供对应的实体和对应的XML数据即可 比如: /// /// 通过入Object的主键做为删除 主键为keys 的xml数据,删除后在重新插入xml中的数据 /// /// 实体对象 /// xml数据 /// 主键列表 /// public List GetDeleteAndInsertXmlSql(Object o, string xml, List keys) 4、增加集成了盘古中文分词 更多范例请参考 http://hi.baidu.com/earthsearch 注:使用范例时:请先引用所有的DLL类库 有任何疑问请与我本人联系 QQ 99923309 QQ群:
1
清华大学开放中文词库 http://thuocl.thunlp.org/ IT 16000条 财经 3830条 成语 8519条 地名 44805条 历史名人 13658条 诗词 13703条 医学 18749条 饮食 8974条 法律 9896条 汽车 1752条 动物 17287条
2023-02-20 22:11:34 1.11MB THUOCL 清华大学分词
1
零售商品分词或数据分析的语料库,如商品品牌
2023-02-16 15:05:29 37KB 语料 分词 商品分词库
1
Python Jieba中文分词工具实现分词功能
2023-02-15 18:34:44 53.31MB python
1
solr5.5.4对应的中文分词器下载,如果solr为tomcat方式部署,下载后解压该压缩文件,将下面的jar文件复制到solr项目的lib目录下,将里面的配置其他配置文件复制到classes目录下即可。
2023-02-14 23:09:18 13.84MB solr ikanalyzer
1
lucene6.6中适配的拼音分词jar包以及ik中文分词jar包,以及自定义的分词词组包和停词包,可以实现lucene建立索引时进行拼音和中文的分词
2023-02-13 09:23:59 16.39MB lucene分词ik
1
地址分词算法,基于条件随机场.
2023-01-31 09:26:39 213KB 地址分词
1
TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。 年休假 年假 年休 究竟 到底 回家场景 我回来了 代码 import jieba def replaceSynonymWords(string1): # 1读取同义词表,并生成一个字典。 combine_dict = {} # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割 for line in open(TihuanWords.txt, r, encoding='utf-8'): seperate_word = line.str
2023-01-29 10:29:39 48KB ie jieba python
1
记录超大容量辞海词典词库 可以自行导入数据库后用于分词 辞海词典。 Access数据库。 含380578条数据。 含各类词语解释、注音和例句。
2023-01-27 15:52:56 14.21MB 辞海词典 分词数据库
1