本文围绕面向不均匀样本集的惩罚校正 SVN 分类方法、作物病害图像的病变识别预处理、病变模式识别的数值分析特征提取及 SVN 识别、病变图像模式半监督深度学习特征提取及识别、病变图像模式监督深度学习特征提取和一体化识别 5 个方面的内容展开了深入研究。拓展了机器学习理论及其应用范畴,构造了基于机器学习的作物病变图像识别的数据结构和算法范形。最后,将提出的理论和设计方法应用于工厂化果园生产场景采集的苹果病害图像识别并进行算法级别实验验证,为面向深度学习作物病害图像识别的农业智能系统产品开发设计提供了不菲的参考价值。 主要研究成果和创新点如下: 1. 提出了惩罚校正的支持向量分类算法和校正方法。以 SVN 为基础,探讨惩罚支持向量机处理不平衡样本时,在不同目标尤其是样本稀疏目标的学习错误率上呈现的显著性差异,提出惩罚校正的支持向量分类算法和校正方法。 2. 设计了病害图像识别方位亮度多样性仿真方法。同广泛使用的基准数据集相比,农场果园视频感知设备采集环境复杂,充满着多种干扰,定点、移动方式都难以保证在受限条件和有限次数采样下,采集到代表性图像在各状态下分布均匀的样本集。
2022-04-27 16:05:50 5.67MB 图像处理 机器学习 人工智能
时间序列分析是人类认识与探索自然规律的一种普遍方式。为了准确预测时间序列 数据,机器学习作为人工智能领域研究的基础,对复杂时间序列分析有着绝对的优势, 因此研究机器学习算法对分析时间序列有着重要的意义。针对传统时间序列分析方法对时间序列预测准确度不高问题,提出一种改进的SAMLSTM融合算法。通过研究目前针对时间序列预测效果较好且基于机器学习的通用算法支持向量机(SVM)与循环神经网络(RNN)的方法,发现SVM主要是对线性可分数据进行分类的方法,RNN虽然对序列有着保存以往信息能力,但容易发生梯度消失现象导致预测效果不佳。长短期记忆神经网络(LSTM)是为了解决RNN无法处理远距离长序列依赖问题,通过加入门结构方式很好地避免了发生梯度消失问题;自注意力机制(SAM)的目的是帮助模型对每个样本数据赋予不同的权重,提取出影响数据分析预测的关键信息。构建SAM-LSTM融合算法,综合两者算法的各自优势,实验选取电力负荷需求量数据和日最高温度气象数据,对比SVM算法、RNN算法、LSTM算法以及SAMLSTM算法对时间序列预测准确度及误差值...... 关键词:时间序列分析;机器学习;SAM
2022-04-27 16:05:48 8.6MB 机器学习 人工智能
摘要 现实中的很多实际问题都可以转化为数据信息处理中的数据分类问题,例如 气象预报、商品推荐、生物信息、网络检测等,而数据信息处理都是以机器学习 为基础进行研究的。随着科学技术的发展,机器学习算法的应用领域也变得十分 广泛。 本文主要介绍了两种机器学习算法:粒子群算法优化支持向量机和卷积神经 网络。其中研究了粒子群算法优化支持向量机在树叶分类和癌症基因分类中的预 测,卷积神经网络在图像分类中的应用。 (1)基于各种树叶的特征构建一个数据预处理模型:先对各种数据进行归一 化处理,采用主成分分析方法从16个特征中提取出3个主成分,再建立粒子群 算法优化后的支持向量机,用支持向量机对树叶数据进行分类预测。实验结果表 明,相对于遗传算法和网格搜索法寻到的最优参数相比,粒子群算法优化支持向 量机具有最高的准确率,高达94.1%,高于其他两种分类方法。 (2)将粒子群优化的支持向量机模型应用到癌症基因分类中,通过选取多组 不同的实验数据对癌症手术后病人的复发和不复发的基因样本进行预测分类。对 于三种不同分类方法对于癌症基因分类的不同分类效果,综合实验结果,粒子群 优化支持向量机在三种分类方法中达到
2022-04-27 16:05:46 6.31MB 算法 机器学习 分类 文档资料
随着科学技术的不断进步,时间序列预测方法得到了很大的发展,目前常用的时 间序列方法有传统的时间序列预测方法和基于机器学习的预测方法。这些方法 使用方便,操作简单,预测精度高,在业界得到了广泛的应用,但是这些方法 用在不同的数据集中结果精度差距较大,不具有通用性。因此,目前很多研究 者采用组合预测方法和混合预测方法来提高这些预测方法的通用性,通过将不 同的传统时间序列预测方法和基于机器学习的预测方法相结合,充分利用各个 模型的优点,尽可能地提高时间序列预测的精度。 本文首先提出一种新的时间序列预测方法BP-SARIMA-ANFIS,该方法组 合了反向传播神经网络(BP)、季节性差分自回归移动平均模型(SARIMA)和自 适应模糊神经网络系统(ANFIS)。该方法首先用BP、SARIMA和ANFIS对原始 时间序列数据进行预测,然后取三种方法得到的预测结果的加权平均值。权值 系数在组合预测模型中有着非常重要的作用,本文采用微分进化算法(DE)优化 BP-SARIMA-ANFIS方法的加权系数。通过对澳大利亚新南威尔士州的电力负 荷数据进行模拟,并将BP-SARIMA-ANFIS方法的预测
2022-04-27 16:05:45 5.45MB 机器学习 文档资料 人工智能
随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络信息爆炸式 增长,而其中绝大部分信息以文本形式存在。如何从这海量的信息中快速高效的获取数 据,成为信息处理领域亟待解决的问题。文本自动分类技术作为处理和组织大量文本数 据的关键技术应运而生并取得了快速的发展。 基于主题的文本分类是根据文本的内容将文本划分到预先定义好的类别中去。机器 学习方法由于其自身的灵活性并能够取得较好的分类效果,因此在文本分类中得到了广 泛的应用。机器学习方法要经过文本的预处理,特征选择,特征加权,训练分类器并进 行分类等过程。特征加权是文本分类中的重要环节,对文本的分类性能有直接的影响。 通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了 提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度 因子,提出了一种基于改进的互信息特征加权方法,实验表明,该方法比传统的特征加 权方法TFIDF具有更好的分类性能。 情感分类是文本分类的重要分支,它已经逐渐成为了信息检索和自然语言处理领域 的热点研究问题。机器学习方法同样适用于文本的情感分类,但是其效果却与传统的
2022-04-27 16:05:45 7.62MB 机器学习 分类 文档资料 人工智能
随着医疗行业信息技术的引入,该行业的信息化和自动化水准不断提高。医学 文本信息处理技术正逐渐成为一个新的研究热点。医疗文本,以电子病历为代表, 包含了大量丰富的医疗信息,是进行疾病预测、个性化信息推荐、临床决策支持、 用药模式挖掘等的重要资源,并且可以以此为基础进行医院机构服务价值的衡量。 医学文本中尽管蕴藏着丰富的医疗知识,但处理起来也更加困难。由于以电子病历 为主的医疗文本中包括大量非结构化的自由文本以及图像影像信息,且医生自行 录入可能导致文本的拼写错误、医学名词简写以及不同医生不同地区的惯用语,电 子病历中所包含的医疗信息还不能被计算机有效利用。因此,机器学习和自然语言 处理相关技术将在医学文本的分析和挖掘中发挥重要作用。 为了更好地探索和利用医学文本,特别是电子病历的半结构化和非结构化信 息,对其中非结构化自由文本进行标准化和结构化非常的重要,而医疗信息对时间 特征具有较高的敏感性,使得时间信息也成为了更好分析医疗文本必不可少的因 素。传统的文本分类需要先进行一系列预处理和特征工程的建模,在医疗文本中存 在大量的专业术语和知识、不准确的分词或难以理解的语义特征会影响分类的正
2022-04-27 16:05:42 11.89MB 文档资料 机器学习 人工智能
近年来,随着移动终端技术的不断发展,人们可以愈发便捷地通过微博、论坛等载体来 表达个人的情绪及观点。用户通过这些载体发布的信息中往往包含着一定程度的情感倾向、意见倾向特征,通过情感倾向分析技术挖掘这些特征对于舆情分析、舆情监控等有着十分重要的意义。本文以论坛文本数据为研究对象,使用基于机器学习的情感倾向分析方法进行了相关研究,具体研究内容如下: 首先,介绍了针对论坛数据进行舆论倾向性研究的背景及意义,阐述了业内使用机器学 习技术进行情感分析的相关研究现状。同时,针对情感倾向分析的流程和相关技术进行了介绍,包括文本采集技术、文本预处理技术、文本表示技术、性能评估指标等。 而后,研究使用朴素贝叶斯技术以及字典法针对论坛文本进行情感倾向性分析,经过算 法适用性比较,最终选择了效果更优的字典法。通过扩充分词库、扩充极性词库、构建面向突发事件的情感倾向词典等方式对算法进行了四次优化,最终平均准确率达到了87%,平均召回率达到了81%,能较好地反映文本针对突发事件的意见倾向数值。 关键词 : 机器学习,网络舆情,情感倾向分析,朴素贝叶斯,情感字典
2022-04-27 16:05:41 3.23MB 机器学习 网络 文档资料 人工智能
随着“互联网+”概念的普及,我国互联网金融行业迅速发展,个人信贷业务市场份额也 快速增长,使得业务数据变得复杂多样。传统的信贷风控大多是模型驱动的策略,已经不能够满足违约风险预测的需求,导致各类违约事件频发,给机构带来较大的损失。因此,需要引入机器学习算法,来完善信贷风控机制,促进信贷业务市场健康、可持续发展。 本文采用机器学习算法针对信贷风控场景中的两个问题进行解决。第一,在新的信贷产品 投放初期,由于没有业务积累,仅有少量标记数据和大量无标记数据,因此不能建立数据驱动的有监督信贷风控模型;第二,在信贷产品投放一段时间后,积累到了一定量的数据,大多数机构会采用逻辑回归(Logistics Regression,LR)来实现信贷风控建模,LR模型简单且易于实现、训练速度快,但是这种模型属于线性模型,学习能力有限,不能学习到特征间的非线性关系,需要信贷业务经验丰富的风控工程师做人工特征组合,因此需要耗费大量的人工成本。 围绕以上问题,本文主要工作如下: (1)针对信贷产品投放初期,不能建立数据驱动的有监督信贷风控模型的问题,本文提 出了基于狄利克雷过程混合......
2022-04-27 16:05:41 3.24MB 机器学习 人工智能
随着计算机技术的迅猛发展和网络的广泛应用,网络入侵事件频繁发生,且 入侵的手段层出不穷,使得传统的数字认证和防火墙等网络安全措施越来越难以 满足人们的需求。因此,为了增强网络的安全性,入侵检测技术得到了越来越多 的重视。尽管如此,入侵检测算法自身的局限性使得网络入侵检测系统的误报率、 漏报率较高。近些年来,机器学习方法开始应用到入侵检测领域,成为该领域的 又一研究热点。 网络入侵检测的关键算法是分类算法。在机器学习方法中,SVM、神经网络 都是常用的分类算法,这些分类模型一般需要大量优质的数据进行训练才能达到 较好的效果。但是在网络入侵检测中,往往会出现样本分布不均匀、新类型攻击 流量没有训练数据以及模型检测时间过长等等问题。本文从基于SVM和神经网络 的网络入侵检测算法出发,探索了一系列基于机器学习算法的数据集处理和分类 算法优化方法,以期获得较好的检测效果。 在本文提出的网络入侵检测方法中,首先利用改进的K-means算法对训练集 中的样本进行数据筛选,并通过细化聚类以及添加噪声样本构造出新的训练数据 集。随后采用弃一法对样本进行特征选择。在训练SVM分类器时提出了基于网格 搜索和
2022-04-27 16:05:40 6.3MB 网络 机器学习 小说 人工智能
滑坡是由岩石、土体或碎屑堆积物构成的山坡体在重力的作用下,受到地 表水和地下水或地震等的影响,沿软弱面(滑动面)发生整体向下滑落的过程。 滑坡灾害可毁灭村镇、破坏交通,造成财产损失和人员伤亡,滑坡引发的次生 灾害还会阻塞河道、引发洪水,甚至诱发形成泥石流灾害,造成更严重损失。 我国山地环境广泛,尤其在西南地区,山地是主要的地貌形态,地质环境条件 和水文气候条件复杂多变,是我国滑坡灾害最严重的地区,频繁发生的滑坡使 得人们的生命和财产安全受到了极大的威胁。 滑坡易发性区划是通过分析影响滑坡的内在因素和外在因素,评价潜在滑 坡灾害的地理空间分布,为城市建设规划和滑坡灾害防治提供决策支持。我国 的大部分滑坡是由降雨直接诱发或与降雨有关,降雨诱发滑坡的预报预警能够 使有关部门及早制定防治措施,减少滑坡灾害的损失。 本文以典型的西部山区县域一一重庆市奉节县为研究区域,开展基于机器 学习的滑坡易发性区划与降雨诱发滑坡预报预警研究,具体研究内容和研究成 果如下: (1)采集并处理了研究区2001~2016年发生的1520个滑坡数据以及地质 构造、地形地貌、降雨、人类活动等数据,分析了研究区滑坡灾害的
2022-04-27 16:05:40 16.17MB 机器学习 人工智能