Process Mining: Overview and Opportunities文章翻译
2022-04-28 14:04:35 977KB 流程挖掘
1
随 着 大数据 时 代 的 快速发 展 , 文 本 信 息 数据 量 急 剧 增 加 , 为 了 获 取有 价值 的 信 息 , 提升 信 息 获取 效 率 , 就 需 对这些文本信 息进 行分类 。 因 此 , 文 本分类系 统 的 研 究 与 实 现具 有 重要 意 义 。 新 闻 文本 是 文本信 息 的一个重 要组成部分 , 也 是人 们 获取 信 息 的重要 方式 。 本 文 以 新 闻 文本 分类为依 托 , 对 当 下 文本分类算法进 行 改进 , 以 新 闻 文本分类系 统 为 实例 对文 本 分类系 统 的 设计 与 实 现进 行 说 明 , 完 成 文 本 分类算法 的 研 究工 作 。 本文 以 大数据 时代背 景及 分类技术 的 发 展为背景 , 对 贝 叶斯 分类 算 法 以 及 卷积 神 经 网 络 分类 算 法进 行 了 改进 , 以 提升 分类 的 准确 度 , 主 要 工作 内 容 有 以 下 几个方面 : 第一, 本 文 针对 不 同 种 类 的 文本 分类方 法做 了 调 研 , 通过 阅 读 文
2022-04-28 09:09:16 7.18MB 机器学习 分类 人工智能 数据挖掘
公开数据集中的diamonds(钻石)数据。该数据包含53940行,有carat(钻石的重量)、cut(钻石的切工)、color(钻石的颜色)、clarity(钻石的纯净度)、depth(钻石的深度比例)、table(钻石的桌面比例)、price(钻石的价格)、x(钻石的长)、y(钻石的宽)、z(钻石的高)共10列,对应每个钻石的一些参数值,本实验主要是对钻石的切工、钻石的颜色、钻石的纯净度进行统计及可视化分析,并且对钻石的重量、钻石的切工、钻石的颜色、钻石的纯净度对价格的影响进行统计及可视化分析和数据挖掘分析。
2022-04-27 23:30:44 3.2MB 数据统计 excel python 数据挖掘
1
餐厅订单数据分析的数据
2022-04-27 22:22:08 982KB 数据分析 数据挖掘
1
反光衣数据集,以建筑工地为主,分类反光衣和其他衣服两类 ├── Annotations │   ├── reflective_000000.xml │   ├── reflective_000001.xml │   ├── reflective_000002.xml │   ├── reflective_000003.xml ...... ├── reflective_0001028.xml JPEGImages ├── reflective_000000.jpg ├── reflective_000001.jpg ├── reflective_000002.jpg ├── reflective_000003.jpg ...... ├── reflective_0001028.jpg
2022-04-27 20:07:20 81.87MB xml 分类 数据挖掘 人工智能
农作物病害分类图像数据集,训练图像总数为32768张,验证图像总数为4992张
2022-04-27 20:07:18 140B 分类 源码软件 数据挖掘 人工智能
目前,Transformer已经霸榜计算机视觉各种任务,但是缺点也很明显就是参数量太大无法用在移动设备,为了解决这个问题,Apple的科学家们将CNN和VIT的优势结合起来,提出了一个轻量级的视觉网络模型mobileViT。 根据论文中给出的Top-1成绩的对比结果,我们可以得出,xs模型参数量比经典的MobileNetV3小,但是精度却提高了7.4%,标准的S模型比ResNet-101,还高一些,但是参数量也只有ResNet-101的九分之一。这样的成绩可谓逆天了! 本文从实战的角度出发,带领大家感受一下mobileViT,我们还是使用以前的植物分类数据集,模型采用MobileViT-S。
2022-04-27 20:07:17 945.36MB 分类 源码软件 数据挖掘 人工智能
随着互联网技术的快速发展,互联网上的文本数据变得越来越多,传统的人工文本类 别划分方法已经无法应对当前的数据量,自动文本分类技术成为研究的热点。作为文本挖 掘技术的主要分支,文本分类技术可以有效解决大数据发展下的文本自动分类需求。特征 选择和文本分类算法是文本分类技术的两个关键部分,本文主要针对这两个部分进行研究。 在特征选择部分,本文提出一种基于卡方统计量(CHI)和互信息(MI)的混合特征 选择方法(CHMI),该方法首先针对卡方统计量方法对低频词敏感的缺点,引入词频因子 进行改进,然后使用调节参数改善互信息方法对类别敏感的不足,最终结合改进后的两种 方法,得到对低频词和类别均有较好处理效果的混合特征选择方法。实验结果表明,与传 统的卡方统计量方法和互信息方法相比,本文方法在支持向量机、朴素贝叶斯和K最近邻 分类器上,均可以有效提高文本分类的准确率。 在文本分类算法部分,分类器采用支持向量机,支持向量机的核心是核函数,本文提 出一种基于多项式核函数和高斯核函数的混合核函数。该核函数具有多项式核函数和高斯 核函数的优点,既具有多项式核函数能够提取整体特征的能力,又利用高斯核函数对局部
2022-04-27 20:07:01 2.93MB 机器学习 分类 人工智能 数据挖掘
商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式增长。无论是从事产品研发的工程师,还是从事产品推广的市场人员、人力资源和财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能替代。 本书包括 18 章,涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章到第 8 章为统计学习方法,第 9 章到第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的练习题。 本书作为 CDA 数据分析师系列丛书中《如虎添翼!数据处理的 SPSS 和 SAS EG 实现(第 2 版)》和《胸有成竹!数据分析的 SPSS 和 SAS EG 进阶(第 2 版)》的姊妹篇,将前两本书的内容进行整合并做了重大拓展,而且秉承了该系列丛书的特点:内容精练、重点突出、示例丰富、语言通俗。可以作为广大从业人员自学商业数据分析的读物,适合大中专院校师生学习和阅读,同时也可以作为高等院校商科、社会科学及相关培训机构的教材
2022-04-27 16:41:56 319KB 数据挖掘 人工智能 r语言 学习
1