上传者: 43934844
|
上传时间: 2022-06-21 17:05:29
|
文件大小: 5.59MB
|
文件类型: PPTX
数据分析 郭现伟 大数据之数据分析全文共11页,当前为第1页。 数据分析知识点 大数据之数据分析全文共11页,当前为第2页。 监督学习和非监督学习 监督学习 监督学习针对有标签数据集,它通过学习出一个模型(其实就是一个函数)来拟合数据,按照模型(函数)的输出结果是否离散又可以分为两类,分别是:(1)输出结果为离散值,则为分类问题(常见的分类算法:KNN、贝叶斯分类器、决策树、SVM、神经网络、GBDT、随机森林等);(2)输出结果为连续值,则为回归问题(有线性回归和逻辑回归两种)。 无监督学习 无监督学习针对没有标签的数据集,它将样本按照距离划分成类簇,使得类内相似性最大,类间相似性最小。通过观察聚类结果,我们可以得到数据集的分布情况,为进一步分析提供支撑。常见的聚类算法有K-means、高斯混合模型和LDA。 如何选择有监督和无监督? 1、是否有标签和训练数据 2、数据条件是否可改善 3、看样本是否独立分布 大数据之数据分析全文共11页,当前为第3页。 数据分析常用算法 大数据之数据分析全文共11页,当前为第4页。 数据分析算法 回归算法 回归分析是一种预测性的建模技术。 它研究的是