我们目前正处于一场数据革命之中。在科学、健康甚至日常生活中产生的海量和不断增长的数据集将影响社会的许多领域。许多这样的数据集不仅大,而且是高维的,每个数据点可能包含数百万甚至数十亿个数字。以成像为例,一张图像可能包含数百万个或更多的像素;一段视频可能很容易包含10亿个“体素”。为什么在高维空间学习具有挑战性,这是有根本原因的(“维度诅咒”)。跨越信号处理、统计和优化的一个基本挑战是在高维数据集中利用低维结构。低维信号建模推动了理论和应用领域的发展,从医学和科学成像,到低功耗传感器,再到生物信息学数据集的建模和解释,这只是其中的一小部分。然而,大量的现代数据集带来了额外的挑战:随着数据集的增长,数据收集技术变得越来越不受控制,经常会遇到严重错误或恶意破坏,以及非线性。传统的技术在这种情况下完全崩溃,需要新的理论和算法。
为了应对这些挑战,在过去的二十年里,高维空间中低维结构的研究取得了爆炸性的发展。在很大程度上,代表性低维模型的几何和统计性质(如稀疏和低秩及其变体和扩展)现在已经被很好地理解。在何种条件下,这些模型可以有效地和高效地从(最小数量的抽样)数据恢复已经明确的特征。为了从高维
2022-06-13 11:06:01
89.87MB
人工智能