本数据集可用于进行文本分类、信息检索等自然语言处理实验,共包含80万条短信。其中:原始数据集data.txt每行为1条短信,格式为“标签\t短信内容”,标签=0表示正常短信,标签=1表示垃圾短信。train.csv和test.csv为拆分后的训练集与测试集,拆分代码为train_test_split.py。stopwords.txt为使用的停用词。 基于该数据集的文本分类详见文章https://blog.csdn.net/baidu_40395808/article/details/135793836,基于该数据集的信息检索详见文章https://blog.csdn.net/baidu_40395808/article/details/135897480。 示例如下: 0 商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一 1 《依林美容》三.八.女人节倾情大放送活动开始啦!!!!超值套餐等你拿,活动时间x月x日一x月xx日, 详情进店咨询。美丽热线x
2024-06-19 16:21:14 40.89MB 数据集 人工智能 搜索引擎 信息检索
1
bartender9.4破解版,内涵注册机。bartender是最好的标签打印软件。此为非开发版本。可满足日常打印需求。
2024-06-19 15:44:19 144.79MB 标签打印
1
大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码
2024-06-19 11:34:39 95.83MB 数据仓库
1
引入大数据因子选股的Alpha动量交易策略 本文主要讨论了引入大数据因子选股的Alpha动量交易策略,旨在探索量化投资中的一种重要投资策略。动量Alpha策略认为前期上涨幅度较大的股票将会由于惯性作用持续战胜市场,给投资者带来超额收益。文章选取上证50指数成份股作为研究对象,对于大数据方法和情绪因子的数据挖掘和分析进行了研究,并应用动量Alpha策略对股票进行了选择和投资。 以下是本文的知识点总结: 一、量化投资的发展历史 量化投资是一种通过数量化方法和计算机程序化自动形成买卖指令,用以获得稳定收益的交易方式。量化投资的发展经历了萌芽、兴起,并在90年代达到繁荣。代表人物为詹姆斯·西蒙斯和詹姆斯·埃克斯设立的大奖章基金,连续二十年收益近40%,远超“股神”巴菲特同期收益21%。 二、动量Alpha策略的原理 动量Alpha策略认为前期上涨幅度较大的股票将会由于惯性作用持续战胜市场,给投资者带来超额收益。该策略认为股票的价格变化是由其历史价格走势所决定的,通过对股票的历史价格走势进行分析,可以预测股票的未来价格变化。 三、大数据方法在量化投资中的应用 大数据方法由于其复杂多样,数据量巨大以及产生的非结构化数据可以形成有效信息。通过对非结构化情绪文字的处理形成结构化情绪数据,可以为投资选股形成一个新的思路,即情绪高涨的股票通常会得到更多关注。 四、本文的研究结果 本文选取了上证50指数成份股作为研究对象,对于大数据方法和情绪因子的数据挖掘和分析进行了研究,并应用动量Alpha策略对股票进行了选择和投资。实证分析表明模拟的九种策略有七种可以获得超额收益率,且形成期为20天或30天,持有期为70天的动量策略可以达到高于25%的超额收益率和高于40%的总收益率。 五、量化投资在中国的发展前景 量化投资在中国的发展起步较晚,但随着市场股指期货的推出和更多金融产品的发明,我国量化投资可操作性得到有效的提高,为国内量化投资提供了新的契机。 本文探索了引入大数据因子选股的Alpha动量交易策略,并对量化投资的发展历史、动量Alpha策略的原理、大数据方法在量化投资中的应用、本文的研究结果和量化投资在中国的发展前景进行了讨论,为读者提供了一个系统的了解量化投资的机会。
2024-06-19 10:09:10 12KB
1
redpitaya_axi_gpio_dds
2024-06-18 20:46:57 57.25MB fpga
1
Python Python数据分析与可视化大作业 + 源代码 + 数据 + 详细文档
2024-06-18 20:24:07 7.77MB python 数据分析 数据可视化 pandas
1
matlab洛伦兹代码洛伦兹·德鲁德(Lorentz)DrudeMaterialFit C#中的遗传算法用于将材料折射率数据拟合到Lorentz-Drude色散模型。 可以在GATest / test.cs中更改输入文件(制表的lambda,n,k文本文件)和算法参数。 Matlab代码可以生成数字并与分析模型进行比较,以计算剩余的适应性误差。
2024-06-18 19:58:35 24KB 系统开源
1
用友ERP-U8 V10.1数据字典,用友ERP-U8 V10.1数据字典。
2024-06-18 11:11:31 10.91MB 用友ERP-U8 V10.1 数据字典
1
字符串String的定义: 1、字符串String类存放与 java.lang 包中,因为java.lang包是系统默认引入的,所以使用该包时,不用再通过 import 关键字进行引入了; 2、String 类是 final 类型的类,所以 String 类不能被其他类继承,即没有子类; 字符串String的使用: String 常量 :和别的数据类型不一样,String类型的常量 和 对象一样,也拥有自己的 引用和实体,这些引用和实体都存放在常量池中; 例如: “你好”、”itm”、”my” ,这三个都是String 常量,它们分别拥有自己的 引用和实体 ; String 对象:通过 Str
2024-06-18 11:10:24 48KB string
1
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。
1