This tutorial is concerned with applications of information theory concepts in statistics, in the finite alphabet setting. The information measure known as information divergence or Kullback-Leibler distance or relative entropy plays a key role, often with a geometric flavor as an analogue of squared Euclidean distance, as in the concepts of I-projection, I-radius and I-centroid. The topics covered include large deviations, hypothesis testing, maximum likelihood estimation in exponential families, analysis of contingency tables, and iterative algorithms with an “information geometry” background. Also, an introduction is provided to the theory of universal coding, and to statistical inference via the minimum description length principle motivated by that theory.
2023-03-30 21:10:17 791KB 信息论 统计 机器学习
1
10.3 统计机器学习 机器学习是近年来得到快速发展和广泛应用的研究领域,它研究的是用数据或先验知 识优化计算机算法的效果。从机器学习的方法可以分为统计方法和非统计方法。非统计的 方法种类很多,并且往往最后都归结于一个具体的优化问题,可以通过深入掌握优化理论 和算法,比较有效地把握各种非统计类方法。而统计类机器学习方法,虽然也用到最优化 方法,但是还有一些在概率框架下系统性的思路。下面我们把统计方法的脉络稍加整理, 供大家参考。 10.3.1 最大熵与指数族分布 统计机器学习中,指数族形式[9]的分布由于求解的方便性,有非常重要的工程地位, 我们先来看一下这一族分布形式产生的原因。要了解指数族形式产生的原因,需要先了解 最大熵(Maximum Entropy,ME)原理[6]。最大熵原理告诉我们,当在某些约束条件下选 择统计模型时,需要尽可能选择满足这些条件的模型中不确定性最大的那个。如果采用熵 作为统计不确定性的度量,这个问题就变成一个在这些约束下优化熵的问题。在最大熵的 准则下,估计一个概率的优化问题可以表示成:
2022-05-29 22:23:13 12.82MB 计算广告 互联网商业 变现 刘鹏
1
统计机器学习-卡耐基梅隆大学(Carnegie Mellon University)708 讲义、作业、习题解答
2022-04-29 16:09:40 19.62MB 统计机器学习
1
statistical-machine-learning-lab 统计机器学习方法练习
2022-03-03 01:44:02 272KB HTML
1
格兰杰(Granger)于 1969 年提出了一种基于“预测”的因果关系(格兰杰因果关系),后经西蒙斯(1972 ,1980)的发展,格兰杰因果检验作为一种计量方法已经被经济学家们普遍接受并广泛使用,尽管在哲学层面上人们对格兰杰因果关系是否是一种“真正”的因果关系还存在很大的争议。
2021-12-26 14:32:12 4.42MB 理论PPT 统计 机器学习
1
关于统计机器学习的一些文献,介绍了机器学习领域的最新进展,包括半监督学习的一些介绍
2021-12-05 23:46:53 1003KB 机器学习
1
一个ReactJS网络应用程序,可使用SMT(统计机器翻译)将源代码转换为伪代码 ·。 · 关于该项目 学习的辅助工具,可帮助您使用SMT将源代码可视化为伪代码您可以在此处使用它: 使用指南 转换器页面包含两个编辑器,一个用于编写要转换的源代码,另一个用于在转换后显示伪代码。 您还可以通过先从下拉菜单中选择语言,然后浏览并上传文件来上传要转换的文件。 您选择的文件也将显示在文本编辑器中。 现在,只需单击转换按钮,它将在后台运行基于Docker容器的编译器。 建于 显然很多 :red_heart: 项目架构 backend文件夹包含基于Django API的代码,以将文件上传到projects目录。 code_converter文件夹包含部署在DFINITY上的前端代码。 cpp-pseudogen文件夹包含cpp / c语言的翻译器代码。 frontend文件夹包含整个webapp的UI。
2021-11-19 18:12:40 1.21MB Python
1
代码Kindle 一个ReactJS网络应用程序,可使用SMT(统计机器翻译)将源代码转换为伪代码。 它是如何工作的 转换器页面包含两个编辑器,一个用于编写要转换的源代码,另一个用于在转换后显示伪代码。 您还可以通过先从下拉菜单中选择语言,然后浏览并上传文件来上传要转换的文件。 您选择的文件也将显示在文本编辑器中。 现在,只需单击转换按钮,它将在后台运行基于Docker容器的编译器。 未来范围 增加对更多语言的支持 将一种语言代码转换为其他语言,例如将cpp代码转换为php等。 改进翻译器的算法,使其包含复杂的情况,例如在主体内部进行多个函数调用。 项目结构 backend文件夹包含基于Django API的代码,以将文件上传到projects目录。 code_converter文件夹包含部署在DFINITY上的前端代码。 cpp-pseudogen文件夹包含cpp / c语
2021-09-19 21:53:43 1.07MB 系统开源
1
研究生阶段学习了机器学习的课程,要做客场报告,我选择的是统计机器学习,做的不是很完善,但是我自己查看了许多资料,最后综合而成的。
1
1. Frequentist (频率派): The Frequentist approach views the model parameters as unknown (constant) and estimate them by matching the model to the training data. Using an appropriate metric. 频率派观点认为,模型参数是未知的(常数),⽤恰当的准则,使得模型与训练数据相匹配来估计它们 (参数)。 2. Bayesian (⻉叶斯派): ⻉叶斯派观点认为,模型参数是随机变量,通过给予参数以先验分布(通常是来⾃前⼈经验),基于⻉叶 斯定理做最⼤的后验概率估计。 3. 对⽐ 对⽐频率派与⻉叶斯派,前者多在做优化(Optimization),后者多在做积分。 4. 参数模型与⾮参数模型 对于参数模型,参数的数量是固定的,与训练数据的数量⽆关。 对于⾮参数模型,参数的熟练不固定,⽽是随训练数据的增加⽽增加。
2021-06-03 21:30:34 10.15MB 统计 机器学习 张志华
1