分类器的性能比较与调优: 使用scikit-learn 包中的tree,贝叶斯,knn,对数据进行模型训练,尽量了解其原理及运用。 使用不同分析三种分类器在实验中的性能比较,分析它们的特点。 本实验采用的数据集为house与segment。
近年来,深度学习已经彻底改变了许多机器学习任务,从图像分类和视频处理到语音识别和自然语言理解。这些任务中的数据通常用欧几里得空间表示。然而,越来越多的应用从非欧几里得域生成数据,并表示为对象之间具有复杂关系和相互依赖关系的图。图数据的复杂性给现有的机器学习算法带来了巨大的挑战。近年来,许多关于图数据扩展深度学习方法的研究已经出现。在八报告中,提供了一个简明的图神经网络(GNNs)在数据挖掘和机器学习领域的概述。我们提出了一种新的分类方法,将最先进的图神经网络分为四类,即递归图神经网络、卷积图神经网络、图自编码器和时空图神经网络。我们进一步讨论了图神经网络在各个领域的应用,并总结了图神经网络的开源代码、基准数据集和模型评估。最后,我们提出了这一快速发展领域的潜在研究方向。
2022-08-25 21:05:05 5.04MB 人工智能
1
南京理工大学数据挖掘课件,主要内容是有关数据挖掘和数据仓库方面的。
2022-08-11 00:30:49 5.01MB data mining
1
多得分手 允许在scikit的cross_val_score使用多个度量功能的cross_val_score 。 正如已经讨论过的那样,Python的SciKit包含了用于计算估计量评估指标的强大功能(使用cross_val_score ),但在为同一分类器计算多个指标而不进行再次训练时,它似乎失败了。 由于仅接受单个度量标准名称或单个可调用名称的函数的scoring参数而出现问题。 此存储库的模块multiscorer是一种在cross_val_score中使用任意数量的指标的解决方法。 安装 要“安装”模块,只需下载源代码并将其放置在项目的目录中即可。 (或者,下载multiscor
1
在许多实际的数据挖掘应用程序中,例如文本分类,可以轻松获得未加标签的训练示例,但获得加标签的训练示例则相当昂贵。 因此,半监督学习算法引起了数据挖掘和机器学习领域的极大兴趣。 近年来,基于图的半监督学习已成为半监督学习社区中最活跃的研究领域之一。 本文提出了一种基于线性邻域模型的新颖的基于图的半监督学习方法,该方法假设每个数据点都可以从其邻域进行线性重构。 我们的算法称为线性邻域传播(LNP),可以使用这些线性邻域以足够的平滑度将标签从标记点传播到整个数据集。 本文对LNP的性质进行了理论分析。 此外,我们还导出了一种简单的方法来将LNP扩展到样本外数据。 对于合成数据,数字和文本分类任务,提出了有希望的实验结果。
2022-08-01 16:46:33 3.37MB data mining;graph theory;learning (artificial
1
tidytext:使用整洁工具进行文本挖掘
1
udpipe-基于UDPipe的用于标记化,标记,合法化和依赖性解析的R包 该存储库包含的R包是绕UDPipe C ++库的RCPP包装物( , )。 UDPipe提供了与语言无关的标记,标记,词条化以及原始文本的依赖项解析,这是自然语言处理中必不可少的部分。 所使用的技术在论文中进行了详细说明:“使用UDPipe进行令牌化,POS标记,解密和解析UD 2.0”,可从以下网址获得: //ufal.mff.cuni.cz/~straka/papers/2017-conll_udpipe.pdf 。 在该论文中,您还将发现不同语言和流程速度的精确度(以每秒字数为单位)。 一般 在围绕UD
2022-06-29 13:12:39 4.69MB nlp natural-language-processing text-mining r
1
数据库管理系统概述英文版课件:18 Data Mining.ppt
2022-06-21 09:05:50 362KB 数据库
2018全国高校云计算应用创新大赛 最终排名:1 repo为技能赛的赛题一: 购物篮数据集 记录数 项目数 最短长度 最长长度 平均长度 1,692,082 5,267,656 1 71,472 177 用户数据集 用户数 项目数 最短长度 最长长度 平均长度 330,244 1,080,203 4 1,195 130 采用的频繁项集挖掘算法为PFP-Growth 比赛相关信息点 项目结构   本项目用scala语言编写,用maven组织。代码结构如下。 项目src/main/AR目录下存放源代码文件。 main文件夹中存放频繁项集挖掘与关联规则生成与关联规则匹配与推荐分值计算这两个模块的代码。 util包里FPTree、AssociationRules是频繁项集挖掘所必须的数据结构,FPNewDef是基于mllib的FP-Growth算法的优化版本。 conf文件夹包含一个Conf类用于
1
数据会议 :clinking_beer_mugs: _ .- ' ) ( ' .( OO )_ ,--. .- ' ),-----. .- ' ),-----. ,--. ,--.) | | .- ' ) ( OO ' .-. ' ( OO ' .-. ' | `. ' | | | OO )/ | | | | / | | | ||
1