【机器学习基础知识】 1. 机器学习/数据挖掘: - 数据挖掘是通过分析大量观测数据,找出其中的规律,并以可理解的方式呈现数据的方法。它包括模式识别、关联规则学习、聚类和异常检测等。 - 机器学习则是让计算机通过经验学习并改进在特定任务上的性能。根据是否有标注数据,机器学习可以分为有监督学习(如决策树、支持向量机)、无监督学习(如聚类、主成分分析)、半监督学习和强化学习。 2. 主动学习/无监督学习/有监督学习/强化学习/半监督学习/在线学习: - 主动学习允许系统选择最有价值的未标注样本进行标注,以提高模型准确性。 - 无监督学习不依赖于标注数据,常见于发现数据内在结构,如K-means聚类。 - 有监督学习需要标注数据,例如神经网络和决策树。 - 强化学习是通过与环境交互学习最佳策略,如Q-learning。 - 半监督学习在少量标注数据和大量未标注数据下进行学习。 - 在线学习则是在数据流中连续接收新样本进行学习。 3. ID3/C4.5/CART算法: - ID3算法基于信息增益选择划分属性,构建决策树。 - C4.5是ID3的改进版,引入了增益率,处理连续和离散属性更优。 - CART(Classification and Regression Trees)适用于分类和回归问题,使用基尼不纯度或Gini指数作为划分标准。 4. 神经网络/支持向量机/集成学习/K-means: - 神经网络模拟人脑神经元工作原理,通过权重调整学习数据,常用在图像识别、自然语言处理等领域。 - 支持向量机(SVM)通过最大化边际最大化分类效果,其VC维理论确保了泛化能力。 - 集成学习如随机森林、梯度提升等,结合多个弱分类器形成强分类器,降低过拟合风险。 - K-means是简单的聚类算法,寻找数据的最佳K个聚类中心。 5. 过拟合与避免过拟合: - 过拟合发生时,模型在训练集上表现好,但在测试集上表现差,原因是模型过于复杂或训练数据不足。 - 避免过拟合的方法包括获取更多数据、选择合适模型、特征选择、L1/L2正则化、Dropout、Early Stopping以及决策树的剪枝。 【其他知识点】 - Parzen窗:用窗函数估计概率密度,高斯函数常用因其平滑且易于计算。窗函数需非负且归一化。 - 梯度下降与牛顿法:梯度下降沿梯度负方向更新参数,适合大规模数据,牛顿法利用二阶导数信息,收敛更快但计算成本高。 - AdaBoost:通过迭代调整样本权重和构建弱分类器,减少错误率,最终组合弱分类器形成强分类器。 - SVM的结构风险最小化:最大化边际可以减小过拟合,同时考虑VC维来平衡模型复杂度和泛化能力。 - SVM的对偶形式:通过拉格朗日乘子将原始问题转换为对偶问题,简化求解。 - 线性不可分SVM:通过核函数将数据映射到高维空间实现线性可分,如径向基函数(RBF)核。 这些知识点涵盖了机器学习的基础理论和常用算法,对于理解模型训练、评估和优化至关重要。
2025-06-16 16:44:17 523KB
1
Linux期末考试题主要涵盖Linux操作系统的基础知识,包括文件系统、磁盘管理、命令使用、正则表达式、Shell脚本、服务管理和用户权限等。以下是根据题目内容详细解析的知识点: 1. **安装Linux系统必备分区**:在安装Linux时,通常需要创建`/`分区(根分区)和交换(Swap)分区。`/`分区是系统的基础,包含所有系统文件,而交换分区用于充当虚拟内存。 2. **交换分区大小**:如果计算机内存为128MB,交换分区的大小通常应为内存的两倍,即256MB,以提供额外的内存空间。 3. **ls命令**:使用`ls -l`选项可以显示文件和目录的详细信息,如权限、所有者、大小、修改日期等。 4. **查看IP地址**:在Linux中,使用`ifconfig`命令可以查看本机的IP地址,而不是Windows中的`ipconfig`。 5. **vi编辑器退出**:`:wq`命令在vi编辑器中保存并退出,`:q!`强制不保存退出,`:q`仅退出(如果未做修改)。 6. **删除文件**:`rm`命令用于删除文件,`rmdir`用于删除空目录。 7. **查看文件内容**:`cat`命令常用来查看文件内容,`more`则用于分页查看。 8. **正则表达式**:匹配以001开头的行,应使用`^001`作为正则表达式,`^`表示行首。 9. **Shell循环结构**:在Shell中,`for`、`while`和`until`是循环控制结构,但`switch`不是,它是某些编程语言中的结构,而非Shell。 10. **挂载光盘**:挂载CD-ROM到/mnt/cdrom的正确命令是`mount /dev/hdc /mnt/cdrom`。 **填空题知识点**: 1. 启动NFS服务的命令是`service nfs start`或`/etc/rc.d/init.d/nfs start`。 2. 链接分为硬链接和符号链接(软链接)。 3. 权限drw-r--r--的八进制表示为644,表示这是一个具有读写权限的目录。 4. 常用硬盘接口类型包括IDE和SCSI。 5. 要运行Shell脚本,需要先赋予其可执行权限,例如`chmod +x scriptname.sh`。 **问答题知识点**: 1. `at`命令用于一次性安排任务,而`cron`服务(通过`crontab`命令配置)用于定期重复执行任务。 2. 这是挂载软盘到/mnt/floppy的命令,`mount -t vfat /dev/fd0 /mnt/floppy`,这里 `-t vfat` 指定了文件系统类型为FAT(与Windows兼容)。 3. 改变文件权限: - 八进制数字法:`chmod 471 text` - 直接赋值法:`chmod u=r, g=rwx, o=x text` - 改变文件所有者:`chown xs text` 4. `/etc/passwd`文件的字段解释: - 第一字段:用户名 - 第二字段:加密后的密码(现代Linux通常在影子文件中) - 第三字段:用户ID(UID) - 第四字段:组ID(GID) - 第五字段:用户信息 - 第六字段:用户登录shell - 第七字段:用户家目录 - 第八字段:用户登录Shell 5. 创建目录树结构: - 创建目录`aa`和`bb`:`mkdir aa bb` - 在`aa`目录下创建文件`11.txt`和`22.txt`:`touch aa/11.txt aa/22.txt` - 创建子目录:需要在`aa`目录下执行`mkdir bb/ccc bb/dd dd/eee` - 在每个子目录下创建`.txt`文件:`touch aa/bb/ccc.txt aa/bb/dd/eee.txt` 这些知识点涵盖了Linux操作系统的基本操作和概念,对于理解和掌握Linux系统至关重要。
2024-10-19 22:22:11 56KB
1
Java 期末考试题目,适合初学者期末考试题!欢迎大家使用!
2023-11-02 07:02:43 114KB Java
1
山东建筑大学计算机科学与技术学院软件工程期末考试试题
2023-07-05 12:24:36 982KB 试卷 期末考试题
1
本文介绍了某项目的PDM图以及任务一和任务二的历时估计。其中,任务一的最乐观、最悲观和最可能的历时估计分别为10天、28天、19天,任务二的最乐观、最悲观和最可能的历时估计分别为16天、40天、25天。接着,文中给出了两个问题的计算方法和参考答案,分别是项目在50天内完成的概率和项目在35~50天内完成的概率。
1
erp期末考试题型.pdf
2023-04-13 12:04:09 87KB
本文是一份期末考试题卷,包含三道单选题。第一题是关于“中间人”攻击的说法的选择题,选项包括在网络中放置恶意机器并使用它来拦截流量、窃取另一个用户的会话 cookie 并伪装成那个用户、使代码在“特权”环境下运行以及将恶意 HTML 或 JavaScript 内容插入到网页中。第二题是关于 HTML 注入攻击的选择题,选项包括财务上的损失、盗取用户的计算机、服务器上数据的损坏以及服务器上私有数据被公开。第三题是关于防止 HTML 注入的最佳方法的选择题,选项包括去掉 HTML 标签、从输入中删除这些注入的字符以及允许请求代码审计。
2023-04-07 17:19:52 51KB JAVEWEB
1
本文介绍了计算机网络技术期中考试题,包括Internet的前身、通信子网、计算机网络的优点、实现计算机网络所需的硬件和软件等内容。其中,Internet的前身是Arpanet,通信子网包括通信控制处理机和终端控制器,计算机网络最突出的优点是资源共享。实现计算机网络需要网络操作系统等软件来管理整个网络各种资源和协同各种操作。最后提到一个计算机网络由资源子网和通信子网构成。
1
适合初学者看看的C语言试题,特别是刚接触C语言的同学
1
1. 下列程序段的运行结果是( C ) 2. 已知定义类 A,该类的构造函数的参数都没有缺省值 3. 下列叙述正确的是(D) 4. 下列关于赋值兼容性规则的叙述
2023-02-24 23:25:36 149KB
1