崇左新闻网

《DataFocus 数据可视化》第七章 高维多元数据

7.1高维数据可视化

高维多变量数据,包含两个概念,一个是高维的,另一个是多维的。什么是高维,什么是复数?高维意味着数据具有多个独立属性,多变量意味着数据具有多个相关属性。

如今,信息和经济发展如此迅速。人们更深入地参与问题的探索,更复杂,更大,这使得测试判断越来越多,并且可测量的组件内容越来越小。导致研究对象,其数据维度越来越高,有时达到数十,数百甚至数千个维度。虽然高维数据可以提供更丰富,更详细的信息,但它可以帮助人们客观地理解研究对象。但是,数据维度过高,也给后续的数据处理分析可视化工作带来了巨大的挑战。

通常,研究对象的变量之间存在相对复杂的关系,并且随着用于描述这些对象的独立变量的数量增加,变量之间各种复杂的相互关系的概率增加。增加了分析和处理这些对象的难度。

高维数据实际上是多维数据。在我们的正常业务中,最常见的是一维或二维数据,有时会经常遇到三维数据。所谓的一维是一条线,线上每个点的位置可以用坐标值表示,因此称为一维数据。二维是一个平面。平面中点的位置可以用两个坐标值表示,因此称为二维数据。三维是指在平面二维系统中添加方向的空间系统,该平面二维系统是坐标轴的三个轴,即x轴,y轴和z轴,其中x表示左右空间,y表示上下空格。 z代表前后空间,从而形成人类的三维视觉感受。三维动画是由三维制作软件制作的三维动画,三维动画是现在的发展趋势。下面的图7-1是典型的一维地图,图7-2是典型的二维地图,图7-3是最简单的三维地图:

9da1f93b38b14f66ac9e495e101b3408

图7-1经典的一维地图

271d8a7ef7394b31a832d4ca72eac575

图7-2经典2D地图

1370a770ae7a4f7682f04e062656c870

图7-3??3D地图

我们如何在视觉空间(3D空间/2D平面)中表达3D以上的数据?这要求我们将尺寸减小到用于视觉显示的低维空间,并且可以使用流行学习来减少高维数据的维度。它可以分为线性和非线性。在流行的流行学习方法中,有主成分分析和线性判别分析。非线性流形学习方法主要包括等距映射,拉普拉斯特征映射和局部线性嵌入。多维尺度分析,部分切线空间对齐算法,t分布邻域嵌入算法等。

7.2多变量数据可视化

多变量数据也称为“多变量样本值”。即,通过联合观察多个变量(两个或更多个)获得的数据,即多变量样本的特定值。在日常生活中,我们也经常会遇到多个数据。例如,我今天要吃的东西取决于这些食物的卡路里有多高,是否有反式脂肪,或者我是否想购买新的手机,这取决于手机。像素有多高,手机的价格是多少,手机的内存如何等等。这些决定通常取决于我们对多变量数据的分析。此外,对多变量数据的分析可以帮助我们发现某些数据之间的潜在规律,并根据这些规律进行预测。

多变量数据的可视化一直是研究和应用的热门话题。常用方法包括散点图和平行坐标系。在实践中,两者都具有广泛的应用,不同的演变甚至组合。

虽然散点图非常常见,但每个数据都是一个点,可以减少像素总数和视觉复杂度。但是,散点图也有一些缺点,它们只能显示两个属性之间的关系。

a6123e794db14aba8362634ff4f2acc4

图7-5散点图

平行图解决了散点图只能显示两个属性之间的关系的缺点,但每个数据都是一条线,这增加了像素的数量。当数据量很大时,它变得复杂。显示数据之间的连接也不好。

9646a44cec3147f8becdf5b6f4c1b660

图7-5并行图

除了上述两种常见图形外,在现实生活中,多种图形协调方法通常用于显示多种数据。什么是多图协调协会?不同的图形用于显示数据的不同属性,如下图7-6所示,它使用Rising Sun图表显示区域信息,显示产品信息的直方图,显示时间信息的时间序列条形图,等等。

6eb5482d701c4fa1b57de88bb7c44ee8

图7-6多图协调关联