分析使用了DataCo Global公司使用的供应链数据集。供应链数据集,允许使用机器学习算法和R软件。重要的注册活动领域包括:供应,生产,销售,商业分销,还允许将结构化数据与非结构化数据进行关联以生成知识。 DescriptionDataCoSupplyChain.csv DataCoSupplyChainDataset.csv tokenized_access_logs.csv
2022-03-25 20:09:43 42.5MB 数据集
1
工业互联网是新一代信息通信技术与工业经济深度融合下的关键基础设施、 新型应用模式和全新工业生态体系,当前围绕工业互联网的应用探索和业务创新 大量涌现。特别是《国务院关于深化“互联网+先进制造业”发展工业互联网的 指导意见》发布以来,我国制造企业、自动化企业、ICT 企业、互联网企业、科 研院所等各方力量积极参与我国工业互联网建设及推广工作,不断推动我国工业 互联网的深化发展。展现的应用场景。
2022-03-18 00:05:41 1.46MB 5G应用
1
大数据分析的道与术
2022-03-17 20:27:50 44.17MB 大数据
1
当心!“数据”一样会说谎! 例2:一所艺术学校,男生校服只有裤子款式(100%选裤子),而女生校服有裙子和裤子两种款式,经统计得知75%的女生选裙子款,25%选裤子款。今天进入校园,远远看到一个穿裤子的同学,他是男生的概率高?还是女生的概率高? 根据之前讲座交流的经验,对于第一次阅读这份数据的朋友,大都判断该同学更可能是男生。但如果我把所有的数据细节都透露出来,大家的结论会不会有变化呢? 例2的完整数据:艺术学校有女生900人,男生100人。看到一个穿裤子男生的概率为10% × 100% = 0.1,而看到一个穿裤子女生的概率为90% × 25% = 0.225,所以远远看到一个穿裤子的同学,他更有可能是女生! 例2只公布了似然概率,却隐藏了先验概率信息,使人的判断发生迷惑。什么是似然概率和先验概率呢?这涉及到统计学中的贝叶斯公式,描述一件事物发生的概率与两个概率相关,先验概率和似然概率。 数学表示:P(h1 | D) ∝ P(h) × P(D | h) 假设h代表我们对某个事物的判断,如果有两个判断(如某同学是男或是女),可以写为h1、h2。数据D表示观测到的统计数据。P(h|D)表示看到数据D后,判断假设h为真的概率。P(D|h)表示判断假设h为真的情况下,观测到数据D的概率。那么,贝叶斯定理说明了“观测到数据D,判断假设h为真的概率”,与“假设h天然出现的概率(P(h),称为先验概率)”和“假设h为真的情况下,观测到数据D的概率(P(D|h),称为似然概率)”成正比。 其实更准确的公式是 P(h | D) = P(h) ×P(D | h) /P(D),因为对于不同的假设h,数据D天然出现的概率P(D)均相同。其对判断“哪个假设h更可能是真的”不起作用,通常可以忽略。 回到艺术学校的例子,观测数据D =看到该同学穿的是裤子,假设 h1=他是男生,假设h2=她是女生。 因为艺术学校男生有100人、女生有900人,所以先验概率 P(h1) =10%、P(h2)=90%。 因为男生 100%会选择裤子,女生 25%会选择裤子,所以似然概率P(D | h1) =100%、P(D | h2) =25%。 那么,校园中随意看到了一位穿裤子的同学, 他是男生的概率近似:P(h1 | D) = P(h1) × P(D | h1) = 10% × 100% = 0.1 她是女生的概率近似:P(h2 | D) = P(h2) × P(D | h2) = 90% × 25% = 0.225 可见女生的概率要比是男生的概率高1倍多,这位穿裤子的同学更可能是女生! 注释:上述计算亦可以加上P(D)的考量,会得到精确的概率结果。女生有225人穿裤子,男生100人穿裤子,校园1000名学生中穿裤子的概率P(D)为32.5%。将上述近似值除以P(D),得到他是男生的概率为30.8%,她是女生的概率为69.2%,之间的差距比例是一致的(0.1/0.225 = 30.8%/69.2%),所以通常可以省去计算P(D)。 从这两个例子可见,隐藏一部分数据,只展示部分维度时,可能会诱导人们得出完全不同的结论。在某些场景下,更细节的相关信息是不能忽略的,隐藏了部分事实就相当于说谎。很多数据分析工作均需要全面细致的数据信息才能做出正确的判断。
2022-03-10 14:50:09 42.69MB 大数据
1
通过爬虫在百度上已经爬到了热40万词,里面有排行榜
2022-03-09 22:36:17 3.02MB 大数据 百度热词
1
基于python的数据分析实例表格i_nuc.xls,代码中所用到的资源,便于实际进行操作。涉及到基于python的大数据抽取,修改,增加等相关操作。
2022-03-07 21:09:24 112KB 基于python的大数据分析基础
1
与Frey和Osborne(2013)的预测相反,会计行业将面临灭绝,我们认为会计师仍然可以在大数据分析的世界中创造价值。 为了提出这一论点,我们提供了一个基于结构化/非结构化数据和问题驱动/探索性分析的概念框架。 我们认为会计师已经擅长于结构化数据的问题驱动分析,在非结构化数据的问题驱动分析中处于领先地位,并且可以支持数据科学家对大数据进行探索性分析。 我们的论点基于两个Struts:会计师熟悉结构化数据集,简化了向使用非结构化数据的过渡,并且拥有业务基础知识。 因此,我们认为大数据分析是对会计师技能和知识的补充,而不是取代会计师。 但是,教育者,标准制定者和专业机构必须调整其课程,标准和框架,以适应大数据分析的挑战。
2022-03-06 09:28:54 340KB big data data analytics
1
研究解决全国火电机组出力系数普遍较低,旋转备用率偏大的问题。通过对近年来安徽电网发电、用电负荷特性数据以及2014年全国大机组竞赛的大量数据进行挖掘和分析,提出了解决问题的几个方案:一是优化电力调度,减少机组在网运行时间;二是增加机组利用小时;三是优化机组设计,降低主辅设备出力富裕度,按IEC标准定义湿冷机组的铭牌;四是发电集团内部机组电量分配优化;五是国家能源局修订电量偏差不大于2%的监管政策。据此可大幅提高火电机组的出力系数,降低旋转备用率和发电煤耗,减少主要污染物排放量,实现企业经济效益和社会效益双丰收。
1
绝对的干货,包含常规在大数据游戏行业看板、自助分析指标
2022-02-24 19:02:32 40KB 数据分析 游戏 big data
“大数据”是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。
1