提出了一种基于分布多库环境下的决策树生成算法DDTA(Distributed Decision Tree Algorithm)。该算法使用基于信息熵增益的思想分割各个分布的、同构训练样本集,各分布站点利用服务器传来的分割属性分割自己的样本集,服务器则通过对所有分布站点传来的信息计算各个属性的信息熵增益得到分割属性。实验表明DDTA算法能对分布同构样本集进行有效决策树挖掘,分布多库环境下生成的决策树是正确的。与算法INDUS相比,该算法的通信代价小。
2021-12-10 16:11:23
191KB
工程技术
论文
1