本数据集可用于进行文本分类、信息检索等自然语言处理实验,共包含80万条短信。其中:原始数据集data.txt每行为1条短信,格式为“标签\t短信内容”,标签=0表示正常短信,标签=1表示垃圾短信。train.csv和test.csv为拆分后的训练集与测试集,拆分代码为train_test_split.py。stopwords.txt为使用的停用词。 基于该数据集的文本分类详见文章https://blog.csdn.net/baidu_40395808/article/details/135793836,基于该数据集的信息检索详见文章https://blog.csdn.net/baidu_40395808/article/details/135897480。 示例如下: 0 商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一 1 《依林美容》三.八.女人节倾情大放送活动开始啦!!!!超值套餐等你拿,活动时间x月x日一x月xx日, 详情进店咨询。美丽热线x
2024-06-19 16:21:14 40.89MB 数据集 人工智能 搜索引擎 信息检索
1
分文标签和数据两类,其中标签为1的是垃圾短信,标签为0的是正常短信 伪基站电信诈骗中文短信数据集 伪基站(Fake-base-station,FBS)是一种高科技仪器,一般由主机和笔记本电脑组成,通过短信群发器、短信发信机等相关设备能够搜取以其为中心、一定半径范围内的手机卡信息,通过伪装成运营商的基站,任意冒用他人手机号码强行向用户手机发送诈骗、广告推销等短信。 本数据集包含了来自国内真实伪基站发送的 14,000 条垃圾/诈骗短信,研究人员手动将其分为 14 个类别。出于隐私考虑,消息中的所有联系人都是匿名的。通过对 FBS 垃圾信息生态系统中主题策略的大规模理解和探索,可以完善垃圾邮件的防御机制。 作者:跨象乘云 https://www.bilibili.com/read/cv17389821/ 出处:bilibili
2024-04-08 17:29:36 699KB 数据集
1
包含1万多条短信,垃圾短信标记为1,正常短信标记为0。
2021-03-25 16:39:08 447KB 垃圾短信 中文
1
分文标签和数据两类,其中标签为1的是垃圾短信,标签为0的是正常短信 例子: 0 乌兰察布丰镇市法院成立爱心救助基金 1 (长期诚信在本市作各类资格职称(以及印 /章、牌、 ……等。祥:x x x x x x x x x x x 李伟%
2019-12-21 22:26:14 30.17MB NLP 短信文本 中文
1
贝叶斯垃圾短息所需要的数据集,
2019-12-21 18:56:29 491KB 贝叶斯 短信数据集
1