本数据集可用于进行文本分类、信息检索等自然语言处理实验,共包含80万条短信。其中:原始数据集data.txt每行为1条短信,格式为“标签\t短信内容”,标签=0表示正常短信,标签=1表示垃圾短信。train.csv和test.csv为拆分后的训练集与测试集,拆分代码为train_test_split.py。stopwords.txt为使用的停用词。 基于该数据集的文本分类详见文章https://blog.csdn.net/baidu_40395808/article/details/135793836,基于该数据集的信息检索详见文章https://blog.csdn.net/baidu_40395808/article/details/135897480。 示例如下: 0 商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一 1 《依林美容》三.八.女人节倾情大放送活动开始啦!!!!超值套餐等你拿,活动时间x月x日一x月xx日, 详情进店咨询。美丽热线x
2024-06-19 16:21:14 40.89MB 数据集 人工智能 搜索引擎 信息检索
1
1. 包里包含源码和一个测试用例,可直接看到效果。 2. 竖排文字的一些说明,移步以下链接 https://blog.csdn.net/piaoyun29/article/details/123255514
2024-06-19 14:36:24 6KB unity 游戏引擎 开发语言
处理低价股票的排队问题,低价股票因为价格变动比较小,会导致订单薄很厚 ,排队很长,所以会有排队排不到成交不了的情况,导致有风险敞口。现在想设计一款算法,使得敞口存续时间最小,输入每几秒的盘口情况,输出敞口存续时间最小的盘口(即在何位置挂单、挂多少数量的单) 需要用到撮合引擎来生成订单薄
2024-06-12 17:38:08 29.4MB
1
本资源主要用于UE4.27 MQTT客户端插件,使用C++进行开发,具有C++和对UE使用比较熟悉者可以进行二次开发
2024-06-12 16:47:39 21.63MB ue4
1
188M2传奇BLUEM2引擎源码开源版附带编译教程2024最新开源 第三方插件少,安装简单使用方便 结合最新2024技术完美优化BLUE源码开区流畅适合二次开发
2024-06-08 14:46:20 360B 课程资源
1
1.基于Dev-C++ 5.x的改进版,GCC 4.8.4内核。2.基于opengl三维动画引擎,实现三维图形、动画的绘制(类似于logo语言)。3.支持代码的数据库管理。4.支持pascal语言转C++语言。5.支持语音识别。6.支持3D打印文件的导入。7.支持多线程编程。8.封装控制台用的游戏函数。9.自带评测机功能......
2024-06-04 15:46:41 117.26MB devc++ opengl c++游戏开发 青少年编程
1
内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。
2024-05-30 22:38:02 2.25MB 搜索引擎 核心技术
1
搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。
2024-05-30 22:32:55 2.25MB 搜索引擎
1
tts文字转语音 rk3288、rk3399 rk3568等 rk3568安卓12系统亲测可用 压缩包包含谷歌语音引擎apk 20240205版本 中文语音包也是配套的 内部使用方法也都说明
2024-05-24 13:49:54 67.74MB android
1
用AGG实现高质量图形输出.zip,AGG图像引擎介绍
2024-05-23 16:34:02 1.89MB 图像引擎
1