机器学习数据预处理葡萄酒数据集wine_data.csv,标准化,归一化
2020-01-03 11:26:51 4KB wine_data machine lear
1
kaggle 冠军 owen zhang 关于kaggle比赛数据处理的ppt
2020-01-03 11:22:43 1.34MB 机器学习 数据科学 技巧 trick
1
唐宇迪机器学习数据分析全套第一部分提供了丰富的学习资源,涵盖了多个关键领域的知识,旨在帮助学习者深入理解并掌握机器学习和数据分析的基本技能。本部分主要包含了以下几个主题: 1. **Python时间序列**:时间序列分析是处理按时间顺序排列的数据的重要方法,广泛应用于金融、气象、电子商务等领域。Python中的pandas库提供了强大的时间序列处理功能,包括时间戳的创建、时间序列数据的读取和操作、日期和时间的计算等。通过这个主题的学习,你可以掌握如何处理和分析时间序列数据。 2. **Xgboost调参**:XGBoost是一种高效的梯度提升框架,常用于机器学习竞赛和实际项目中。它优化了决策树的构建过程,提供了并行化和分布式计算的支持。调参是提升模型性能的关键,包括学习率、树的数量、树的深度等超参数的调整,需要通过网格搜索、随机搜索或者使用如BOSS等优化工具进行。 3. **贝叶斯-新闻分类**:贝叶斯分类是基于概率的机器学习方法,特别适合文本分类问题。通过学习文档的特征和类别之间的条件概率,可以预测新文档的类别。本主题可能涉及朴素贝叶斯理论、特征选择以及实际应用中的文本预处理技巧。 4. **贝叶斯-拼写检查器**:贝叶斯方法也可以用于拼写检查,通过对错误单词的概率建模,提出最可能的正确拼写。这通常涉及到统计语言模型,如n-gram模型,以及错误模式的理解。 5. **支持向量机(SVM)**:支持向量机是一种二分类和多分类的监督学习算法,通过构造最大间隔超平面来划分数据。SVM具有良好的泛化能力,能处理高维数据,并且在小样本数据集上表现优秀。学习SVM还包括理解核函数的作用以及如何选择合适的核参数。 6. **GMM聚类**:高斯混合模型(GMM)是概率聚类的一种,假设数据由多个高斯分布混合而成。通过EM(期望最大化)算法,我们可以估计每个类别的概率密度函数和数据点的类别归属。GMM在图像分割、客户分群等领域有广泛应用。 7. **梯度下降求解逻辑回归**:逻辑回归是二分类问题的常用模型,通过梯度下降法可以找到最优的模型参数。理解梯度下降的工作原理和如何应用于逻辑回归的参数优化是此主题的核心。 8. **聚类算法**:聚类是无监督学习的一部分,用于发现数据的内在结构。K-means是最常见的聚类算法之一,学习内容可能包括聚类的基本概念、距离度量的选择、初始化策略以及如何评估聚类效果。 9. **降维算法**:降维技术如主成分分析(PCA)、奇异值分解(SVD)和t-SNE用于减少数据的维度,同时保持数据的主要特性。这对于可视化、特征选择和提高计算效率至关重要。 10. **数据预处理**:数据预处理是数据分析的前置步骤,包括缺失值处理、异常值检测、数据标准化和归一化等。这部分内容将帮助你理解如何准备干净、有效的数据供后续模型训练使用。 通过学习这些主题,你可以建立起扎实的机器学习和数据分析基础,为解决实际问题和进一步深入研究打下坚实的基础。记得配合唐宇迪机器学习数据分析全套第二部分的内容,以获得更全面的学习体验。
2019-12-26 03:13:18 154.6MB 机器学习 数据分析
1
 该GPS轨迹数据集记录了四川省成都市从2014年8月1日到2014年9月1日的一个月的15000量出租车GPS轨迹数据。约14亿条数据。强调一下这是付费数据。
1
UCI 机器学习数据集,包括cancer等经典数据集
2019-12-21 22:05:52 1.9MB UCI dataset
1
MNIST数据集是一个手写识别数据集,机器学习基础的数据集,并且非常多的教程都用它进行分类训练和学习
2019-12-21 21:43:35 13.6MB 人工智能 机器学习 数据
1
基于数据挖掘的信用卡信用评分模型,数据挖掘系列。。。
2019-12-21 21:43:02 892KB 机器学习 数据挖掘 信用评分模型
1
第一阶段:这一阶段会学习MapReduce、Hive、HDFS、Yarn、Spark等计算框架的开发技术,以及Scala编程语言。通过项目实践,你能快速掌握这些技术,获得数据开发、数据挖掘、机器学习等职位必备的基本开发能力。 第二阶段:这一阶段会学习FLume、Kafka、Spark Streaming、Flink/Storm、Zookeeper、HBase等计算框架的开发技术,以及大数据体系内的数据采集和数据仓库理论思想和技术实现。通过项目实践,你能快速掌握这些技术,获得完整的大数据架构开发能力。 第三阶段:这一阶段会学习NLP文本相似度、中文分词、HMM算法、推荐算法CF、回归算法等应用与开发技术,整体认识商业项目-音乐推荐系统。使用海量真实数据对大数据平台和算法进行应用实践,快速掌握大数据行业具有巨大价值的核心技术。 第四阶段:这一阶段会学习分类算法、聚类算法、分类算法-决策树、分类算法-SVM、神经网络+深度学习,深化前3阶段技术能力,初入机器学习领域。通过对机器学习核心算法的强化练习,你将能完美胜任目前人才最紧缺的数据挖掘开发职位。
2019-12-21 21:39:52 128B 大数据 机器学习 数据挖掘
1
用R实现多种主流的机器学习方法进行,对信用卡违约率进行机器学习建模、模型评价和调参
1
十大算法PPT介绍 82页 包含十大经典算法的汇报 加上各算法的适应情况及各自优缺点。
2019-12-21 21:06:44 22.97MB 十大算法
1