### 相似性基础方法(基于《Learning from Data》第6章) 在深入探讨相似性基础方法之前,我们首先简要回顾一下林轩田教授在《机器学习基石》与《机器学习技法》中所提到的一些核心概念。这些书籍是学习机器学习领域的经典教材,为读者提供了坚实的理论基础和技术实践指南。 #### 一、相似性基础方法概述 **相似性基础方法**是一种直观的学习策略,它通过比较待分类对象与已有数据集中的对象之间的相似度来进行分类或预测。这种方法简单而有效,尤其适用于那些难以用传统统计模型处理的情况。 例如,在描述中提到的一个5岁小男孩将一个从未见过的生物——半人马,根据其特征与他已知的人类和马进行比较,从而做出了一种合理的分类。这个例子很好地展示了人们如何在日常生活中利用相似性来进行判断和决策。 #### 二、相似性的量化 在实际应用中,我们需要将这种直观的方法转化为一种可以量化的技术框架,以便计算机能够执行。为此,本章节重点讨论了如何量化相似性,并提出了一系列重要的概念和技巧。 ##### 2.1 相似性的定义 - **定义**:相似性是指两个对象之间的相似程度。为了实现这一点,首先需要定义一个合适的相似性度量标准。 - **挑战**:找到一个既能反映对象之间的真实相似度,又适合计算的度量标准并不容易。比如,对于图像中的数字“9”和“6”,直观上看它们非常不同,但如果仅通过像素值来衡量,则可能会得到相反的结果。 ##### 2.2 相似性度量 - **常用度量方法**: - **欧几里得距离**:最常用的度量方式之一,适用于数值型数据。 - **余弦相似度**:适用于文本数据和高维稀疏向量。 - **Jaccard相似系数**:适用于集合类型的数据。 - **预处理步骤**: - **中心化**:移除均值,使每个特征具有零均值。 - **轴对齐**:确保特征在同一尺度上进行比较。 - **归一化**:将特征缩放到同一范围,如[0, 1]区间内。 ##### 2.3 最近邻规则 - **定义**:最近邻规则是最基本的相似性基础方法之一,其原理是给新输入对象分配与之最相似的对象所属的类别。 - **实现**:为了实施最近邻规则,首先需要量化两个对象之间的相似度。然后,对于给定的新输入,找到训练集中与其最相似的对象,并将该对象的类别作为预测结果。 ##### 2.4 实例分析 考虑一个简单的数字识别问题,其中包含三个数字:“6”、“9”、“9”。如果我们使用像素值来衡量相似性,那么两个“9”之间的相似度可能远低于“6”与任何一个“9”之间的相似度,这显然不符合直觉。因此,需要对原始数据进行预处理,例如: - **中心化**:确保数字图像居中。 - **轴对齐**:保持数字的大小和位置一致。 - **归一化**:调整图像的尺寸,使其具有相同的比例。 通过这样的预处理步骤,可以显著提高相似性度量的准确性,进而提升最近邻规则等方法的分类性能。 #### 三、相似性基础方法的应用 相似性基础方法不仅限于简单的分类任务,还可以应用于更广泛的场景,包括但不限于: - **图像检索**:用户上传一张图片,系统返回数据库中最相似的图片。 - **推荐系统**:根据用户过去的喜好,推荐与其兴趣相似的产品或内容。 - **异常检测**:识别与正常模式不相匹配的数据点或序列,用于安全监控、设备故障预警等领域。 #### 四、结论 相似性基础方法提供了一个强大的工具箱,用于解决许多实际问题。通过对相似性的准确量化以及适当的预处理步骤,这种方法能够帮助我们有效地进行分类、预测甚至是发现新的类别。未来的研究将进一步探索如何在高维度数据空间中更高效地计算相似性,并开发出更复杂的相似性度量方法。
2025-04-08 21:28:51 15.82MB 机器学习基石 机器学习技法
1
本资源是网盘大礼包,包括林轩田的机器学习基石和机器学习技法的视频。有配套电子书learningFromData,高清有目录,还有作业的代码。这个视频也是我搜集到的。然后我个人的建议是,如果你看了吴恩达的视频之后或者已经通过某些途径入了门,我觉得看这个视频会很有帮助,因为他讲述了机器学习能够有用的理论支撑,个人的感觉是有某些长期困扰我的问题得到了解答。由于这个视频用到的数学知识多一点,所以建议有过入门或者数学基础好点的来看。同时可以结合李航的统计学习看看,多看看博客,以后肯定是有用的,基石打好了才能进阶。
1
台湾机器学习教授林轩田《机器学习技法》的视频及讲义
2020-02-09 03:02:58 50B 机器学习技法
1
Learning From Data plus,完整版,除了机器学习基石该门课配套的教材Learning from Data之外,还补充了后续林轩田老师提供的e-chapter内容(英文版) e-Chapter 6 Similarity-Based Methods e-Chapter 7 Neural Networks e-Chapter 8 Support Vector Machines e-Chapter 9 Learning Aides 如果你没有csdn币恰好也在学习这么课,欢迎加我QQ757387961我将免费发送
1
参考台湾大学林轩田老师的机器学习技法课程,课程分两部分,上部主要是关于理论的讲解。这是下部分,侧重于实际算法。资源包括原始的课程讲义和word笔记。
2015-08-19 00:00:00 31.92MB 机器学习 台湾大学
1