大数据至少具备以下三个特性:数据量巨大(volume),处理速度要求快(velocity),数据类型复杂繁多(variety)针对上面的三个特性,现在对volume与velocity的研究较多,而对
Variety的研究相对较少。
在Variety的研究上主要是使用度量空间来表示,,其具备高度的普遍适用性,但是在度量空间中没有坐标信息,很多平时使用的数学工具无法使用,因此需要对其度量空间内的数据进行坐标化,这样,即可实现传统的数学计算,例如计算距离,计算垂直平分线等等。而数据的坐标化依赖于支撑点的选取。因此支撑点对于度量空间模型中的数据管理和数据分析至关重要。
现在支撑点的选取有三大类问题:
1.支撑点的目标函数2.度量空间需要的支撑点数量
3.实现支撑点选择的算法,考虑其性能与数目,(在合理的时间和空间达到最优的算法的重要性显而易见)
本论文主要针对以上三个支撑点选取的方向进行研究,并且在三大类问题提出新的思路:
(1) 提出基于半径新的目标函数,用于度量空间索引时支撑点的选取
(2) 提出基于坐标矩阵的特征值确定支撑点数目的新方法,性能与以往相同,计算时间简单
(3) 提出抽样支撑点选择框架
其各自的重要性,当前研究情况,当前研究存在的问题,论文的方法和创新点,实验证实后
面会针对三者分别列出。因此需要对测试数据集进行说明
2022-01-05 10:26:24
556KB
课程论文作业
1