大数据+分析案例+视频讲解.rar

大数据

当心！“数据”一样会说谎！

例2：一所艺术学校，男生校服只有裤子款式（100%选裤子），而女生校服有裙子和裤子两种款式，经统计得知75%的女生选裙子款，25%选裤子款。今天进入校园，远远看到一个穿裤子的同学，他是男生的概率高？还是女生的概率高？

根据之前讲座交流的经验，对于第一次阅读这份数据的朋友，大都判断该同学更可能是男生。但如果我把所有的数据细节都透露出来，大家的结论会不会有变化呢？

例2的完整数据：艺术学校有女生900人，男生100人。看到一个穿裤子男生的概率为10% × 100% = 0.1，而看到一个穿裤子女生的概率为90% × 25% = 0.225，所以远远看到一个穿裤子的同学，他更有可能是女生！

例2只公布了似然概率，却隐藏了先验概率信息，使人的判断发生迷惑。什么是似然概率和先验概率呢？这涉及到统计学中的贝叶斯公式，描述一件事物发生的概率与两个概率相关，先验概率和似然概率。

数学表示：P(h1 | D) ∝ P(h) × P(D | h)

假设h代表我们对某个事物的判断，如果有两个判断（如某同学是男或是女），可以写为h1、h2。数据D表示观测到的统计数据。P(h|D)表示看到数据D后，判断假设h为真的概率。P(D|h)表示判断假设h为真的情况下，观测到数据D的概率。那么，贝叶斯定理说明了“观测到数据D，判断假设h为真的概率”，与“假设h天然出现的概率（P(h)，称为先验概率）”和“假设h为真的情况下，观测到数据D的概率（P(D|h)，称为似然概率）”成正比。

其实更准确的公式是 P(h | D) = P(h) ×P(D | h) /P(D)，因为对于不同的假设h，数据D天然出现的概率P(D)均相同。其对判断“哪个假设h更可能是真的”不起作用，通常可以忽略。

回到艺术学校的例子，观测数据D =看到该同学穿的是裤子，假设 h1=他是男生，假设h2=她是女生。

因为艺术学校男生有100人、女生有900人，所以先验概率 P(h1) =10%、P(h2)=90%。

因为男生 100%会选择裤子，女生 25%会选择裤子，所以似然概率P(D | h1) =100%、P(D | h2) =25%。

那么，校园中随意看到了一位穿裤子的同学，

他是男生的概率近似：P(h1 | D) = P(h1) × P(D | h1) = 10% × 100% = 0.1

她是女生的概率近似：P(h2 | D) = P(h2) × P(D | h2) = 90% × 25% = 0.225

可见女生的概率要比是男生的概率高1倍多，这位穿裤子的同学更可能是女生!

注释：上述计算亦可以加上P(D)的考量，会得到精确的概率结果。女生有225人穿裤子，男生100人穿裤子，校园1000名学生中穿裤子的概率P(D)为32.5%。将上述近似值除以P(D)，得到他是男生的概率为30.8%，她是女生的概率为69.2%，之间的差距比例是一致的（0.1/0.225 = 30.8%/69.2%），所以通常可以省去计算P(D)。

从这两个例子可见，隐藏一部分数据，只展示部分维度时，可能会诱导人们得出完全不同的结论。在某些场景下，更细节的相关信息是不能忽略的，隐藏了部分事实就相当于说谎。很多数据分析工作均需要全面细致的数据信息才能做出正确的判断。

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

大数据+分析案例+视频讲解.rar

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载