ubuntu在离线方式下安装搜狗输入法,搜狗输入法依赖fcitx相关包文件,此压缩文件中包括了这些依赖包,并测试通过,输入法安装成功。
2020-03-17 03:13:12 21.16MB fcitx安装 搜狗输入法
1
基于搜狗查询数据500w条使用MapReduce做数据清洗,hive做离线分析的项目,详细文档附数据连接,搜狗实验室的搜索数据下载后缺少了用户ID字段的数据,所以本分析采用的是完整的数据,大家可以放心下载,如果下载数据的百度云链接失效无法下载,大家可以给我留言。
2020-01-04 03:14:55 3.28MB hive hadoop MapReduce 大数据离线分析项目
1
2016CCF 大数据精准营销中搜狗用户画像挖掘
2020-01-03 11:39:33 926KB Python开发-机器学习
1
用来测试word2vec的数据样本,从搜狗实验室全网新闻数据库http://www.sogou.com/labs/resource/list_news.php 下载并提取出新闻内容的数据。
2020-01-03 11:18:59 258KB 搜狗实验室 word2vec
1
SougoCS数据集,内含11类搜狐新闻文本,近10万条。 搜狗提供的数据为未分类的XML格式。 此资源已经将XML解析并分类完毕,方便使用。
2019-12-21 22:23:09 94.29MB NLP 自然语言处理 文本分类 搜狗
1
搜狗中文语料库,涉及运动休闲、人文科学、生活百科、艺术设计、医学医药等十大领域。
2019-12-21 22:22:33 9.13MB 语料库 中文
1
实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的准确率
2019-12-21 21:59:17 26.06MB 文本分类
1
搜狗实验室新闻分类语料库,主要有10个分类,共50多万条记录 0 汽车 1 财经 2 IT 3 健康 4 体育 5 旅游 6 教育 7 招聘 8 文化 9 军事
2019-12-21 21:54:07 25.78MB 搜狗 语料库 分类
1
想要学习自动摘要的数据集,可以从这进行下载。里面有生成好的自动摘要
2019-12-21 21:53:28 13KB 自动摘要 搜狗
1
基于搜狗微信搜索的微信公众号爬虫接口demo
2019-12-21 21:40:53 5KB Python开发-Web爬虫
1