本数据集可用于进行文本分类、信息检索等自然语言处理实验,共包含80万条短信。其中:原始数据集data.txt每行为1条短信,格式为“标签\t短信内容”,标签=0表示正常短信,标签=1表示垃圾短信。train.csv和test.csv为拆分后的训练集与测试集,拆分代码为train_test_split.py。stopwords.txt为使用的停用词。 基于该数据集的文本分类详见文章https://blog.csdn.net/baidu_40395808/article/details/135793836,基于该数据集的信息检索详见文章https://blog.csdn.net/baidu_40395808/article/details/135897480。 示例如下: 0 商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一 1 《依林美容》三.八.女人节倾情大放送活动开始啦!!!!超值套餐等你拿,活动时间x月x日一x月xx日, 详情进店咨询。美丽热线x
2024-06-19 16:21:14 40.89MB 数据集 人工智能 搜索引擎 信息检索
1
简单实现跨模态检索(pycharm运行)
2024-05-08 09:10:06 6.99MB 信息检索
1
图 灵 计 算 机 科 学 丛 书信息检索导论人 民 邮 电 出 版 社北 京王 斌 译Christopher D. Manning[美][德]版 权 声 明I
2024-04-27 21:14:40 6.41MB
1
法律信息检索是从事法学研究和其他相关法律工作的前提和基础,因此,为法律工作者提供便捷的检索渠道一直是资料管理者和文献学研究人员的重要职责,其中法律信息资源和法律信息检索方法的梳理和介绍至关重要。法律信息检索的步骤主要包括确定检索词、选取检索工具以及分析评价检索结果等几个阶段,只有熟练掌握检索的步骤和技巧,才能在浩如烟海的信息资源中查找到用户需要的法律信息。
2024-01-09 23:47:44 160KB 法律信息 信息检索
1
在移动互联网技术和新媒体技术快速发展的时代,信息素养是高素质人才的必备素质,信息素养水平将影响人们的终身学习和工作。本研究通过问卷调查的方式,以华北科技学院安全工程学院各年级本科生为样本展开实证研究,调查了当前阶段大学生信息素养的现状,利用调研统计数据进行了相关的分析。并且针对在校大学生信息素养相对薄弱的问题,探讨了提高大学生信息素养水平的对策,为提升大学生的信息素养提供一定的参考。
2023-12-12 18:13:54 281KB 信息素养 高校学生 信息检索
1
网络信息检索 网络爬虫 倒排索引建立 C# 实现 两个程序 以及实验报告 绝对可以执行
2023-10-29 05:08:41 10.9MB 爬虫 蜘蛛 倒排文档
1
大学生的一门课程作业,这门课程是必须的哦……
2023-10-05 21:50:19 698KB 科技信息检索
1
基于python的英文文档集上的tf、idf和tf_idf图像绘制,完整代码,博客详见:https://blog.csdn.net/weixin_43863744/article/details/120442166
2023-09-19 18:52:53 2KB tf_idf python 信息检索 plt绘图
1
哈工大同义词词林拓展说明文档
2023-04-16 14:55:16 102KB 同义词词林 拓展版说明
1
中科大 信息检索与数据挖掘课程作业答案2022
1