均值漂移谱聚类(MSSC)算法为模式识别聚类任务提供了一种较新的方案. 然而由于其内嵌均值漂移 过程的时间复杂度与样本容量呈平方关系, 其在大数据集环境的实用性受到大大削弱. 利用快速压缩集密度 估计器(FRSDE)替代Parren窗密度估计式(PW)并融合基于图的松弛聚类(GRC)方法, 提出了快速均值漂移谱聚 类(FMSSC)算法. 相比原MSSC, 该算法的总体渐进时间复杂度与样本容量呈线性关系, 并具有自适应性和便捷性.
2021-09-17 10:29:14 591KB 密度估计 均值漂移 谱聚类;
1
包括boston_housing.npz,imdb.npz,imdb_word_index.json,mnist.npz,reuters.npz,reuters_word_index.json共6个数据集
2021-08-05 09:14:10 30.46MB keras imdb reuters 数据集
包括boston_housing.npz,imdb.npz,imdb_word_index.json,mnist.npz,reuters.npz,reuters_word_index.json共6个数据集
2021-07-24 14:08:21 30.46MB 深度学习 keras 数据集
1
基于粒度计算的大数据集频繁项挖掘方法.pdf
2021-07-08 09:04:55 3.48MB 大数据 数据分析 数据应用 数据时代
计算医疗库:分析大数据集医疗,并使用TensorFlow建立机器学习模型
2021-05-24 13:02:45 9.2MB Python开发-机器学习
1
该GPS轨迹数据集由182位用户在(微软亚洲研究院)Geolife项目中收集,历时超过五年(2007年4月至2012年8月)。 该数据集的GPS轨迹由一系列时间戳点表示,每个点都有其中包含纬度,经度和海拔高度的信息。 该数据集包含17,621个轨迹,总距离为1,292,951公里,总持续时间为50,176小时。 这些轨迹由不同的GPS记录仪和GPS手机记录,并具有各种采样率。 91.5%的轨迹以密集表示记录,例如 每1~5每秒秒或每5~10米。 该数据集记录了广泛的用户户外活动,不仅包括回家和上班等生活习惯还有一些娱乐和体育活动,如购物,观光,餐饮,远足和骑自行车。 这条轨迹数据集可用于许多研究领域,例如移动模式挖掘,用户活动识别,基于位置的社交网络,位置隐私和位置建议。 虽然这个数据集分布在中国30多个城市,甚至在美国和欧洲的一些城市,大部分数据都是在中国北京创建的。 图1绘制了该数据集在北京的分布(热图)。该位于加热条右侧的数字表示某个位置产生的点数。
2021-03-21 18:13:53 128.56MB GPS 轨迹 大数据
1
国家社科基金项目数据库 包括里面的所有项目资源信息,如果不懂软件分析的小伙伴,直接在Excel里面也可以进行筛选和数据分析哟,数据量约100000条左右。 数据量较大,可以推荐做数据分析的案例和模板,Hadoop也可练练手哟,资源信息非常全,欢迎科研宝宝下载哟! 话不多说,绝对超值!
近400多万条数据,可以做大数据分析的案例和练习,可以作为推荐系统的学习 字段(id, userid,age,gender,item_id, behavior_type, item_category, date, province)(序号,用户ID,性别,商品ID,用户行为,商品种类,发生日期,发生省份) //1.浏览、2.收藏、3.加购物车 4.购买 至于如何去分析,资源里面附着Hadoop分析代码与Python可视化代码案例,当然仅供参考,你也可以自由发挥!
2021-01-28 04:20:52 201.98MB 大数据 淘宝数据 Hadoop案例 spark
本压缩包包含:spark-assembly-1.4.0-hadoop2.6.0.jar、jcommon-1.0.16.jar、jfreechart-1.0.3.jar、joda-time-2.2.jar, 基于课程《第四章Spark&Scala的集成开发环境.docx》
2021-01-28 04:18:12 240.37MB spark scala 大数据集 wordcount
1