本数据集可用于进行文本分类、信息检索等自然语言处理实验,共包含80万条短信。其中:原始数据集data.txt每行为1条短信,格式为“标签\t短信内容”,标签=0表示正常短信,标签=1表示垃圾短信。train.csv和test.csv为拆分后的训练集与测试集,拆分代码为train_test_split.py。stopwords.txt为使用的停用词。 基于该数据集的文本分类详见文章https://blog.csdn.net/baidu_40395808/article/details/135793836,基于该数据集的信息检索详见文章https://blog.csdn.net/baidu_40395808/article/details/135897480。 示例如下: 0 商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一 1 《依林美容》三.八.女人节倾情大放送活动开始啦!!!!超值套餐等你拿,活动时间x月x日一x月xx日, 详情进店咨询。美丽热线x
2024-06-19 16:21:14 40.89MB 数据集 人工智能 搜索引擎 信息检索
1
分文标签和数据两类,其中标签为1的是垃圾短信,标签为0的是正常短信 伪基站电信诈骗中文短信数据集 伪基站(Fake-base-station,FBS)是一种高科技仪器,一般由主机和笔记本电脑组成,通过短信群发器、短信发信机等相关设备能够搜取以其为中心、一定半径范围内的手机卡信息,通过伪装成运营商的基站,任意冒用他人手机号码强行向用户手机发送诈骗、广告推销等短信。 本数据集包含了来自国内真实伪基站发送的 14,000 条垃圾/诈骗短信,研究人员手动将其分为 14 个类别。出于隐私考虑,消息中的所有联系人都是匿名的。通过对 FBS 垃圾信息生态系统中主题策略的大规模理解和探索,可以完善垃圾邮件的防御机制。 作者:跨象乘云 https://www.bilibili.com/read/cv17389821/ 出处:bilibili
2024-04-08 17:29:36 699KB 数据集
1
GSM-单片机 发送中文短信 TC35模块与STC单片机 测试通过!
2023-04-20 22:04:10 13KB GSM-单片机 发送中文短信
1
stm32 加上 gprs 模块 实现的 中文短信 发生 与接受!!!!!!!!!!!!
2023-03-26 01:09:45 1.06MB STM32 GPRS GSM 中文
1
GSM C51串口 TC35发中文短信 包括汉字转换
2022-05-05 17:12:37 243KB GSM C51
1
simcom7600中文短信测试例程,基于stm32 STM32F103vet6开发板 移动或联通的Micro SIM卡。
2022-04-07 22:35:27 6.13MB simcom stm32 短信
1
调试通信模块发短信时,发送中文需要用Unicode编码,并组包PDU编码,这个工具就是输入手机号和发送内容后,自动组包为pdu编码,以和自己程序做对比,判断程序是否正常。
2022-01-13 09:05:16 10KB PDU 短消息
1
此程序可以实现sim900a发送短信给手机,手机可以接收到发来的短信,这是基于51单片机的程序
2021-12-25 16:10:18 5KB sim900a 中文短信
1
STC15单片机控制GPRS发送中文短信
2021-07-08 09:33:31 52KB C语言
1
GSM中文短信编码原理及实现
2021-05-16 15:25:25 15KB GSM 短信
1