基于大数据的轨迹数据挖掘。Trajectory Data Mining。
2022-01-17 16:22:14 2MB 数据挖掘
1
关联规则的matlab代码数据挖掘(ID2222)-家庭作业 我们实现了基于Jaccard相似度的文本相似文档的查找阶段,使用了混叠,最小散列和局部敏感哈希(LSH)技术以及相应的算法。 我们实现了Apriori算法,用于在销售交易数据集中查找支持至少为“ s”的频繁项目集。 我们还实现了奖励部分,该部分需要实现一种算法,该算法用于生成在销售交易数据集中使用Apriori算法发现的频繁项目集之间的关联规则,这需要至少's'和至少'c'的支持,其中给出“ s”和“ c”作为输入参数。 我们在论文“使用HyperBall进行几何中心的核心计算:数百个十亿个节点及以上”中实现了称为HyperLogLog的Flajolet-Martin算法,并在本文中实现了利用HyperLogLog算法来实现的称为HyperBall的图形算法。计算中心性。 我们研究,实施和测试了光谱图聚类算法,如Andrew Y. Ng,Michael I.Jordan,Yair Weiss的论文“关于光谱聚类:分析和算法”中所述。 使用我们的K特征向量算法的实现,我们分析了两个样本图。 1)。 真实图形“ example1
2022-01-15 10:32:42 29.18MB 系统开源
1
2017-CCF-BDCI-AI评审 这是我近期参加的一个数据挖掘比赛,CCF大数据与计算智能大赛(BDCI)中的一题:法官。但是由于时间冲突与一些个人原因,我只参与并完成了初赛任务(罚金)在初赛成绩中,取得A榜第5 , B榜第7 (最高1.68% )的成绩(这个成绩实际上只用了if-idf特征和Word2Vec特征,该项目在初赛结束后进行过多尝试和改进,效果应该会更容易初赛)。 该项目是我的第一个有关文本分类的项目,所以在做这题之前,我没有任何自然语言处理(NLP)的知识积累。因此,通过参与这个比赛,我的初衷是希望学到一些自然语言处理的基础知识,所以名次对于我来说没有那么重要了。 是一个,我
2022-01-11 13:57:25 211KB nlp data-mining ccf 2017
1
【主要内容】 引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术
2022-01-11 09:14:26 2.27MB 数据挖掘 数据分析 data mining
下午4点 PM4Py是一个python库,支持python中的(最新技术)进程挖掘算法。 它是完全开源的,旨在用于学术界和工业项目。 PM4Py是弗劳恩霍夫应用信息技术研究所的产品。 文档/ API 有关PM4Py的完整文档,请访问 第一个例子 一个非常简单的例子,可以激发您的胃口: import pm4py log = pm4py . read_xes ( '' ) process_model , initial_marking , final_marking = pm4py . discover_petri_net_inductive ( log ) pm4py . view_petri_net ( process_model , initial_marking , final_marking , format = "svg" )
2022-01-10 14:48:37 21.93MB python data-science machine-learning data-mining
1
《Sentiment Analysis and Opinion Mining》,刘冰2012年的书,M&C出版社出版。没在网上找到过免费的,这书很贵的好不好,30美刀…… 话说我这不涉及侵权吧……
2022-01-05 18:22:40 1.74MB 情感分析 评论挖掘 数据挖掘 DataMining
1
《统计学习基础(第2版)(英文)》内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。
2022-01-05 10:43:21 12.69MB Data Mining
1
本文调研了DL在识别生物数据模式中的作用,提供了-DL在生物序列,图像和信号数据中的应用;这些数据的开放获取源的概述;适用于这些数据的开源DL工具的描述;并从定性和定量的角度比较这些工具。最后,它概述了挖掘生物数据的一些开放式研究挑战,并提出了一些可能的未来前景。
2021-12-29 19:51:35 1.49MB DL
1
基于matlab的表情识别代码数据挖掘 项目1 在本作业中,您将研究k最近邻,神经网络和SVM分类器在两个实际分类问题上的应用。 用于此分配的数据集已上传到“数据集”文件夹下。 x_train,y_train,x_test和y_test分别表示训练功能,训练标签,测试功能和测试标签。 在x_train和x_test中,每一行代表一个数据样本,每一列代表一个特征。 问题1 人类活动识别数据集是根据对30名志愿者进行的实验而创建的,以使用智能手机数据识别人类活动。 每个人都在腰部佩戴智能手机(三星Galaxy S II)进行六项活动(步行,步行,上楼,下坐,坐着,站立,躺着)。 使用其嵌入式加速度计和陀螺仪,可以以50Hz的恒定速率捕获3轴线性加速度和3轴角速度。 使用信号处理算法处理数据以提取维度561的特征向量。训练集包含7,352个样本,测试集包含2,947个样本。 在此数据集上实现k = 5的k最近邻算法。 使用简单的欧几里德距离度量来计算两个样本之间的距离。 在训练集上训练带有参数2的多项式内核的SVM分类器,并在测试集上进行测试。 您需要为每个课程训练一个SVM。 为了预测测试
2021-12-29 15:56:20 34.77MB 系统开源
1
职业建设是每个工程专业学生中最珍惜的部分。 对于工程专业的毕业生,有必要在其领域内拥有丰富的知识才能被安置在知名公司中。 数据挖掘用于获取知识,查找隐藏信息,并且该系统还将数据挖掘技术应用于学术数据集。 学术数据包括内部(CCET 1,CCET2和CCET3)分数和作业分数。 根据每个学生的分析结果来预测最后一个学期的成绩。 为了提高准确性,该系统引入了重加权增强的增强算法。
2021-12-28 20:14:04 91KB Data Mining Balanced Boosting
1