当心!“数据”一样会说谎! 例2:一所艺术学校,男生校服只有裤子款式(100%选裤子),而女生校服有裙子和裤子两种款式,经统计得知75%的女生选裙子款,25%选裤子款。今天进入校园,远远看到一个穿裤子的同学,他是男生的概率高?还是女生的概率高? 根据之前讲座交流的经验,对于第一次阅读这份数据的朋友,大都判断该同学更可能是男生。但如果我把所有的数据细节都透露出来,大家的结论会不会有变化呢? 例2的完整数据:艺术学校有女生900人,男生100人。看到一个穿裤子男生的概率为10% × 100% = 0.1,而看到一个穿裤子女生的概率为90% × 25% = 0.225,所以远远看到一个穿裤子的同学,他更有可能是女生! 例2只公布了似然概率,却隐藏了先验概率信息,使人的判断发生迷惑。什么是似然概率和先验概率呢?这涉及到统计学中的贝叶斯公式,描述一件事物发生的概率与两个概率相关,先验概率和似然概率。 数学表示:P(h1 | D) ∝ P(h) × P(D | h) 假设h代表我们对某个事物的判断,如果有两个判断(如某同学是男或是女),可以写为h1、h2。数据D表示观测到的统计数据。P(h|D)表示看到数据D后,判断假设h为真的概率。P(D|h)表示判断假设h为真的情况下,观测到数据D的概率。那么,贝叶斯定理说明了“观测到数据D,判断假设h为真的概率”,与“假设h天然出现的概率(P(h),称为先验概率)”和“假设h为真的情况下,观测到数据D的概率(P(D|h),称为似然概率)”成正比。 其实更准确的公式是 P(h | D) = P(h) ×P(D | h) /P(D),因为对于不同的假设h,数据D天然出现的概率P(D)均相同。其对判断“哪个假设h更可能是真的”不起作用,通常可以忽略。 回到艺术学校的例子,观测数据D =看到该同学穿的是裤子,假设 h1=他是男生,假设h2=她是女生。 因为艺术学校男生有100人、女生有900人,所以先验概率 P(h1) =10%、P(h2)=90%。 因为男生 100%会选择裤子,女生 25%会选择裤子,所以似然概率P(D | h1) =100%、P(D | h2) =25%。 那么,校园中随意看到了一位穿裤子的同学, 他是男生的概率近似:P(h1 | D) = P(h1) × P(D | h1) = 10% × 100% = 0.1 她是女生的概率近似:P(h2 | D) = P(h2) × P(D | h2) = 90% × 25% = 0.225 可见女生的概率要比是男生的概率高1倍多,这位穿裤子的同学更可能是女生! 注释:上述计算亦可以加上P(D)的考量,会得到精确的概率结果。女生有225人穿裤子,男生100人穿裤子,校园1000名学生中穿裤子的概率P(D)为32.5%。将上述近似值除以P(D),得到他是男生的概率为30.8%,她是女生的概率为69.2%,之间的差距比例是一致的(0.1/0.225 = 30.8%/69.2%),所以通常可以省去计算P(D)。 从这两个例子可见,隐藏一部分数据,只展示部分维度时,可能会诱导人们得出完全不同的结论。在某些场景下,更细节的相关信息是不能忽略的,隐藏了部分事实就相当于说谎。很多数据分析工作均需要全面细致的数据信息才能做出正确的判断。
2022-03-10 14:50:09 42.69MB 大数据
1
江苏省计算机三级偏软真题讲解,主要包括四个部分:计算机基础讲解、软件基础与应用、数据结构填空讲解、数据库基础讲解
2022-03-03 14:43:37 123.35MB 江苏省计算机三级
1
江苏省计算机三级偏软真题讲解,主要包括四个部分:计算机基础讲解、软件基础与应用、数据结构填空讲解、数据库基础讲解
2022-02-27 19:55:03 108.17MB 江苏省计算机三级
1
江苏省计算机三级偏软真题讲解,主要包括四个部分:计算机基础讲解、软件基础与应用、数据结构填空讲解、数据库基础讲解
2022-02-26 18:24:24 250.94MB 江苏省计算机三级 偏软
1
【项目实战】使用opencv基于PCA降维算法的人脸识别项目教程,非常适合练手的小项目 1、资料及源码 2、所需模板图片 3、B站视频地址:https://www.bilibili.com/video/BV1Ka4y1i7mS/
2022-02-25 22:22:50 11.74MB opencv 算法 人工智能 计算机视觉
一、深度视频的重要性 随着计算机、通信及网络技术的发展,人们对于数字视频的要求正日益提高,人们希望看到表征自然景物的数字视频能够更加地清晰、更加地真实,而二维视频在真实性上存在很大的局限。相比之下,立体视频增加了景物的深度信息,增强了视觉的现实感和逼真感。立体视频技术作为当前的一个研究热点,已经吸引了越来越多的国内外的学者,并在各个领域得到了广泛应用,如立体数字电视(3DTV)、远程教育、远程工业控制、三维视频会议系统、虚拟现实系统、远程医疗、遥控机器人、自动导航、消费电子等诸多方面。
2022-02-24 20:52:48 11.05MB 深度视频
1
1,从eplan图纸导出文件,,对软件进行操作,得到矩阵图
2022-02-16 09:03:55 15.58MB 矩阵 音视频 安全 线性代数
第一讲:大概的项目介绍以及成绩表实体设计。 第二讲:实现成绩录入查询功能。 第三讲:成绩修改、删除功能的实现。 第四讲:成绩批量导入功能,poi jar包。 第五讲:实现批量插入数据库。 第六讲:读取excel内容并验证录入数据库功能设计实现。 第七讲:导出成绩信息功能页面及功能设计。 第八讲:成绩信息查询导出到excel功能完善 第九讲:成绩图表统计功能(统计某一门课程的分数区段:60分以下、60-70,70-80,80-90,90-100,最高分,最低分,平均分)。 第十讲:数据查询及显示到图表。 第十一讲:完善图表统计功能。
2022-01-30 09:08:16 7.7MB java 数据库 web 学生管理系统
1
里面有代码和视频,还有一些WORD的讲解文档,一共8个文件,4个.C代码,一个视频,一个代码理解,一个固件编译下载,一个光流入门PDF
2022-01-15 20:18:48 135.27MB PX4 光流 视频
1
TCPUDP高级技术视频讲解及笔记
2022-01-10 09:03:20 41B TCP UDP