上传者: 38663837
|
上传时间: 2021-11-07 22:58:10
|
文件大小: 5.14MB
|
文件类型: -
cart回归matlab代码
机器学习
这次来北京,主要还是想要自己能学一些东西,所以还是使用Matlab代码,所以我这里暂时就先用Matlab算法来计算,如果不行,我们再使用R语言来去计算
数据挖据的功能及应用
分类:
决策树、支持向量机、K-近邻、贝叶斯
聚类分析:
K-means;K-中心;DBSan
预测:
线性回归;非线性回归
关联分析:
统计
数据挖掘的流程
商业理解(需求理解)
数据理解
数据准备(构造数据最终集合、净化和转换数据)
模型建立(选择和应用各种模型技术,矫正和优化个证模型参数)
模型评估
模型发布
1.数据清洗
清洗方法:解决不完整数据、错误噪声(偏差分析、回归分析、规则库)
错误噪声的解决方法:
分箱!!!
划分成等深的箱,用箱平均值平滑或者用边界平滑
重复记录的数据:套牌车,这可以是一个很好的课题
实时
实际应用:车辆轨迹数据清洗,北京市12712辆出租车,2011年11月11日之后的30天的GPS采样数据,共有333651069个,平均采样点数量26349
不真实点(超出北京的经纬范围),重复时间点(同一时间的多个点),高速点(大于90km/h),距离