IEEE引用格式:Y. Wei et al., “Evaluating perceptual bias during geometric scaling of scatterplots,” IEEE Trans. Vis. Comput. Graph., vol. 26, no. 1, pp. 321–331, 2020, doi: 10.1109/TVCG.2019.2934208.

文章简介

在现代数据分析场景中,散点图经常被缩放以适应不同的显示,同时在不同显式设备上共享散点图是协作数据分析交流中的一种常规操作

缩放散点图最直接的方法几何缩放(同步和比例地放大或缩小整个图以及其中的对象)。几何变化会导致视觉感知偏见,从而影响数据特征的感知一致性(数量、相关性和聚类),不利于交互式数据探索,如上图所示,在讲述者的散点图中有两个簇,然而显示在移动设备上的时候,这是无法区分的,在下图中,左右两个方框内具有相同数量的点,但是人们总会认为右边方框中的点是更多的,此外,心理学研究证明,当patch的大小增加时,patch的点被认为是稀疏的

已有的研究考虑了散点图的设计决策(点颜色,宽高比和动画),和散点图在移动设备,高分辨率显示和浸入式环境中的使用问题,然而散点图尺度并没有得到系统的研究

为了弥补这一研究空白,作者团队进行了对照实验来研究这种偏见。具体来说,偏见是指视觉特征的感知值与物理值之间的偏差。文章强调了三个视觉特征(即:数量、相关性和聚类分离,如图所示),并提出了三个假设:几何尺度可能导致偏见;数据分布会影响偏见;而改变点的半径可以减少偏见

实验采用两间隔强迫选择(2IFC)方法和双向阶梯(2WS)设计来模拟散点图缩放场景,并收集参与者根据主观经验比较一系列原始和缩放散点图对的选择模式。选取7个层次的尺度比和点半径,利用精心准备的合成数据生成13个层次的视觉特征,2个分布(正态分布和均匀分布)的散点图。在几次初步研究确定实验后,招募了20名参与者并进行了3轮试验,每一轮由准备、介绍与辅导、预实验、正式实验、主观问卷组成

作者记录了被试的选择模式和主观问题回答作为实验结果并进行了主观平等点(PSE)分析,从这些选择模式中得出定量偏见,并对这些偏见进行了一系列统计分析。分析结果表明,第一个假设得到了充分的肯定,第二个假设得到了充分的否定,第三个假设得到了部分的肯定。作者还从主观问卷调查中得到了其他有趣的发现,并系统地总结了这些成果

本文首次尝试理解由几何尺度引起的散点图的感知偏差,贡献了一个精心设计的评估和一系列有益的发现

相关工作

视觉感知根据认知复杂性,可以分为三个层次,从直接的视觉刺激(如位子,颜色和密度/数量)中获得的低级感知被称为注意力前处理(preattentive processing),中层感知是从刺激模式中获得的理解,如相关性和聚类分离,更高层次的感知,如记忆性、美学和参与性是建立在理解基础上的用户认知,在这项工作中,研究了散点图缩放对感知视觉特征的影响。主要研究了一个低级的(数值,在视觉分析的大多数场景中被视为密度)和两个中级的(相关性和聚类分离)视觉特征

许多作品研究了散点图视觉编码的设计评价和自动决策,设计评价研究了特定场景中散点图的视觉编码,并在许多方面提供了经验指导,如点的大小和颜色,高宽比,维度的选择,娱乐,互动和动画,质量度量,例如杂乱减少和集群检测,度量图表执行某些分析任务的能力。然而,现有的研究主要集中在散点图固定不变时的设计决策,而本文感兴趣的是改变显示尺寸的情况

随着显示设备的发展,对分析不同显示器上的数据的要求越来越高,而不仅仅是桌面显示器。研究人员已经注意到显示尺寸强烈影响散点图的可用性。他们研究了显示尺寸对散点图设计决策的影响,如手机上的交互作用、大分辨率显示的认知过程,以及沉浸式环境下的图形布局,此外,显示技术的进步为探索性分析提供了新的场景。一方面,大型显示器允许同时显示许多图表,从而形成多视图接口。另一方面,由于空间感知和无线连接技术的应用,多设备组合越来越多地用于提供涉及多人的协作数据分析。这些新场景导致了散点图的频繁缩放。然而,很少有研究研究散点图尺度的影响,在这项工作中,目标是寻找可能的解决方案,以减轻散点图缩放对视觉一致性的影响

感知偏见是一个被广泛研究的重要问题,它考虑了场景之间的感知差异,包括三种情况:1.感知到的视觉特征与定量统计的差异;2.个体间感知的差异;3.不同设计中感知到的视觉差异,已有的研究中还没有系统地评估散点图缩放所引起的感知偏见

问题和假设

如前文所提到的,为了保持显示的感知一致性,最直接的方法就是采用几何缩放,但是作者的基本观察是几何缩放会导致感知偏见,这种偏见会影响感知一致性

当事实的信念偏离现实时,就会产生知觉偏见 —— Jerit

根据经验,当散点图被缩放时,人们经常会误配视觉特征的感知值和实际值(当笔记本电脑上的散点图投射到窗帘上的时候,人们可能会觉得放大后的散点图有更少的点),因此作者产生的想法是几何尺度会导致感知偏见,此外,作者对影响偏见的因素感兴趣(是否涉及某种规则,能否找到减少偏见的方法),在这项工作中的,团队进行了对照试验来探究这些问题,为了指导实验设计,提出了如下假设:

  1. 假设几何尺度会导致散点图中感知到的视觉特征出现偏差,包括数量、相关性和聚类分离,并且偏差和尺度比存在线性关系

  2. 假设几何尺度引起的偏见会受到数据分布的影响

  3. 假设改变点的半径可以减少偏见

实验设计

实验中的外部刺激是2D散点图的视觉编码和渲染选项,作者将所有散点图的纵横比设为1来消除纵横比造成的干扰,所有的散点图都用灰色背景和黑色细边界来渲染,将所有散点图的x和y维域归一化为[0,1],散点图中的点用黑色的圆圈表示(唯一例外是两种颜色的圆圈表示两个聚类),散点图中的半径是相同的,当散点图被缩放时,视觉编码,包括散点图的宽度和高度,轴的长度和点的半径,都按比例缩放

作者采用带有双向楼梯设计(2WS)的双间隔强迫选择方法(two-interval forced choice,2IFC)来模拟散点图缩放场景,并测量人们的主观体验

2IFC是一种通过一个人的选择模式来衡量其主观体验的方法,在2IFC试验中,受试者被要求在参考刺激和测试刺激对之间做出判断。判断是一种主观比较,以获得视觉特征值较大的刺激,每种视觉特征和尺度比的组合,在2IFC任务中都需要进行一系列的试验

合理的2IFC序列的构建涉及两个重要的考虑因素。(1)检测视觉特征的等级必须覆盖一个合适的范围。太少的水平会使偏差测量不够精确,太多的水平会导致过多的试验。(2)在一系列试验中,特征层次出现的顺序必须精心设计。一个随机序列需要许多试验来获得一个准确的偏差,而参与者可以找到规律性水平排序

作者使用2WS设计来确定特征级别的出现顺序。楼梯式设计是指,测试散点图的特征水平不同,使得下一次试验困难或简单,参考散点图保持在基线水平。顺序可以从- 6层(前梯)或+6层(后梯)开始;两者都位于基线附近,因此形成了一个双向楼梯

图中展示了一个参与者在2WS序列中的实验结果。在前梯或后梯中,由于参考散点图和测试散点图的特征水平非常接近,使得判断变得困难,所以在多次单调变化(箭头)后,试验在基线(高亮区域)附近的一定间隔内波动

这种波动的选择模式正是2IFC & 2WS方法的目的,通过这种方法,可以使用PSE来测量参与者的主观体验,从而得出偏差,每个方向的试验次数设置为15次,共30次。该次数大于特征级别数的两倍,从而保证了波动模式的发生

E1用于测量几何尺度对散点图的三个视觉特征:数量、相关和聚类分离所造成的感知偏差。E1的变量包括scale ratio、feature、feature level。对于每种尺度比和fea- ture组合,每个参与者被要求完成30个试验的2IFC和2WS序列,从而获得偏倚测量的选择模式。每个参与者对应7个尺度比,完成7个序列,共210次试验,检测尺度比变化时的变化趋势,三个特征一共630次试验,所有点的位置被限制在一个以(0.5,0.5)为中心,0.5为半径的约束圆内。如果任何点超过了这个约束圆,那么这个点被删除并重新生成。因此,点云在散点图中心呈正态分布,且分布范围适中,重叠极小

E2关注的是数据分布的影响,因此它与E1共享相同的变量设置,其数据生成与大多数设置中的E1相似。不同的是点集是从均匀分布中采样的。注意,对于E2中的相关检验,作者构造了一个约束椭圆,然后从椭圆内的均匀分布中采样。约束椭圆的中心点为(0.5,0.5),主轴沿散射图的对角线方向从左下到右上,主轴的长度被设置为1,而副轴的长度是一个随机数。因此,作者生成几个候选点集并计算它们的相关系数。随后选择了满足各层次值要求且误差小于0.005的候选值

E3旨在研究改变点半径对感知视觉特征的影响。研究了三个变量:点半径、特征和特征水平,E3中使用的数据与E1中相同。唯一的区别是这些点是用不同的半径渲染的

考虑到实验任务耗时且视觉吃力,团队招募了20名参与者,使用有散点图进行数据分析经验的非应届毕业生和研究生,年龄19-25岁,中位年龄21岁,而非使用亚马逊的土耳其机器人,这样可以观察被试的心理状态,控制实验过程,此外,提供了一个独立安静的实验室,最小的外部干扰,我们要求参与者在实验前至少早睡三天,这样他们就能得到充分的休息和充分的体力。团队还准备了咖啡和零食,帮助参与者在休息时放松。完成这项研究的参与者每小时得到6美元的报酬

团队邀请了5名参与者进行了3次试点研究。这些研究有助于确定实验设计的细节。在试点研究中,作者发现2IFC判断的稳定性在白天比在晚上要高得多。这表明,人的精神和实验环境对2IFC判断的形成有很大的影响。因此,本文在白天安排了所有的实验

为了确定实验顺序,首先遵循E1、E2和E3的顺序。每个实验都包含这三个特征。注意到,在一次实验中,参与者不得不重新关注不同的特征。因此,团队在第二个试验中使用了以特性为主的顺序。在E1 - E3的一轮测试中,只有一个特征被测试以保持参与者思维模式的连续性,此外,作者反复调整数据生成参数(如特征值范围和间隔),界面和程序(如增加练习试验和预试验阶段,调整休息时间跨度)

作者为正式研究设计了一个三轮的实验过程。这三轮的核心变量是视觉特征。即每个参与者在一轮中完成一个特征的三个实验(E1, E2, E3),并通过三轮完成所有特征(numerosity, correlation, cluster separation)。每一轮有四个实验阶段

准备阶段:实验指导老师首先带领参与者进入实验室,然后帮助参与者调整显示器的位置和高度,确保屏幕中央的点与眼睛平齐

介绍阶段:这个阶段让参与者熟悉实验过程、任务、视觉特征和数据。这个阶段通常需要大约10分钟

预备实验:在完成教程之后,参与者需要为当前要测试的特性执行一个简单的预实验来确定参与者是否充分准备好了

正式实验:参与者点击“开始”按钮开始进行个人判断。在完成一个实验的所有试验后,参与者休息2 - 3分钟,然后继续进行下一个实验

在完成了一轮实验后,参与者被要求填写一份问卷来收集他们对当前被检查的视觉特征的主观感受。问卷设置了两类问题:第一类询问的是对做2IFC判断的整体难度水平(DL)的主观感受。例如,”散点图大小的变化是否会使你难以判断正态分布的数值?”如果是的话,那么有多难呢?参与者使用李克特五分制对它进行评分,从1(最低难度)到5(最高难度)不等,第二类是询问在不同的标度比或点半径下进行2IFC判断的困难倾向(DT)的主观体验。例如,”随着散点图大小从小到大的变化,对正态分布数值的感知做出判断的难度是如何变化的?”

实验结果

从实验中收集所有客观和主观的结果。客观结果记录了参与每个2IFC试验的参与者的信息,包括选择、参考散点图的位置、实验变量和完成时间。主观结果从问卷中提取,包括24个问题和对每位参与者的访谈记录。以下主要从以下三个方面对结果进行分析

—— 异常选择模式识别

一些参与者在2IFC判断的几个小时内会偶尔分心,导致在一系列试验中出现异常的选择模式,作者进行了方差分析来识别剧烈波动的选择模式,计算一个序列的10个基本实验的特征水平的方差,一个大的差异同行表明出现剧烈波动的选择模式,这是基于十点研究中参与者的反馈得到的,此外,团队通过观察序列在第二次或第三次试验中是否波动,手工检查了具有早期波动选择模式的少量序列。最后,识别了16%的异常序列。将这些参数标记为离群值,并用具有相同实验变量的所有参与者的偏差均值来代替从这些离群值中测量的偏差

—— 偏见测量

基于人类心理测量功能和韦伯定律,某一参与者在一个比例比/点半径上对一个视觉特征的偏差可以通过他/她对一系列试验的选择(使用主观相等点(PSE)和客观相等点(POE))进行定量测量。在这种情况下,当试验的试验散点图和参考散点图在本质上具有相同的特征值时,被试做出随机选择。因此,PSE是在一系列试验中选择test < reference的0.5概率点,POE是基准特征值,其中试验特征值与参考特征图的实际特征值客观相等。因此,如果散点图缩放引起了感知偏差,则对2WS序列中的PSE与POE进行一定间隔的分离,间隔就是偏差,等于PSE减去POE

—— 显著性分析

作者对每个实验进行了两次显著性分析,第一个是参与者之间的偏见。首先使用夏皮罗-威尔克检验检验正态性,发现大多数结果不遵循正态分布(p < 0.05),然后使用非参数Friedman和ANOVA检验进行检验。结果表明,对于每个实验和视觉特征,不同参与者的偏误没有显著差异。因此,不同参与者的偏见可以得到平等对待。第二个显著性分析是不同尺度比/点半径之间的偏差。夏皮罗-威尔克检验表明,所有结果不遵循正态分布(p < 0.05)。因此,使用非参数Friedman检验来检查每个视觉特征的7个尺度比/点半径的偏差是否存在显著差异

作者假设几何尺度对三个视觉特征的感知存在偏差,且偏差可能与尺度比成线性关系。这一假设得到了充分的证实。随着偏差的存在,当尺度比不为100%时,所有特征都表现出一定程度的偏差,而当尺度比为100%时,偏差非常接近于0。这说明增大和缩小测试散点图会影响三个特征的感知一致性

作者假设偏差会受到数据分布的影响。通过特征和尺度比对E1(正态分布)和E2(均匀分布)的偏差进行两两t检验,以检验其显著性差异,然后采用Bonferroni校正将显著性水平从p = 0.05降低到0.00714(0.05/7),因为在t检验中作者将每个特征的偏倚测量结果除以7个尺度比。三种特征的E1和E2在7个尺度比上的偏差均无显著差异(p < 0.00714)。这一假设被完全否定了。作者认为,正态分布形成的视觉模式可能与均匀分布形成的视觉模式存在效率低下的差异

作者假设改变点的半径可以减小偏差。E3中,试验散点图按固定比例缩放,其点半径变化了7个层次,而参考散点图的基线半径不变(r = 2),即E1中所有散点图的点半径。选择两个比例比(63%和252%)对放大和缩小情况进行测试。这个假设在一定程度上证实了该观点

实验结果如图

客观结果反映了三个主要发现。首先,几何分割会导致对三个视觉特征(聚类度、相关性和聚类分离)的感知偏见。偏见与标度比呈线性关系;即当标度比增大或减小时,偏差的绝对值增大。其次,从正态分布和均匀分布的散点图测量的偏差之间没有显著性差异。第三,改变点的半径可以纠正偏差。这种校正只出现在一定的半径范围内,在数度和大尺度比的情况下,校正效果较大

主观结果发现也分三个方面,首先,数量的影响最大,参与者大致能认识到偏差和量表比率的关系,第二,一些参与者报告说,在均匀分布的散点图中,集合尺度对偏差的影响比在正太分布的散点图中要小一点,第三,参与者对改变点半径b的偏差校正效果不明显

讨论

文章中研究了散点图低水平和中水平分量,但高水平分量除外,作者认为,偏见在散点图缩放中是普遍存在的,但是可以以不同的形式表现出来,作者初步研究了正态分布和均匀分布的影响,多样化的数据分布在未来值得探索,文中只研究了点半径对偏见的影响,其它视觉通道需要进一步研究,如颜色,对比度,不透明度和亮度等

实验设计中得到的最重要的教训是试点研究的重要性,在试点研究中团队验证了2AFC方法,实验的随机序列以及从E1到E3的实验顺序是不合理的,作者发现,如果实验持续进行,参与者的表现会随着时间的推移而下降,为了尽量减少疲劳对实验结果的影响,作者建立了各种严格的休息机制,在一个实验中完成所有的实验后,要求参与者休息2 - 3分钟,然后继续进行下一个实验。在一轮实验结束后,参与者有一个小时的休息时间,在下一轮实验开始前会进行一个预实验来测试参与者的心理状态。参与者被允许在几天内完成所有的实验,如果他们报告强烈的疲劳感或在实验中遇到了意想不到的情况,此外实验中的散点图均在一个统一的桌面显示器上显示,这种做法减少了可控实验,降低了生态效度。可以进一步探讨不同的显示设备和屏幕分辨率如何影响几何缩放引起的偏差

从少量异常序列测量的偏差被替换为具有相同实验变量的所有参与者的偏差平均值。作者仔细检查了这些序列,以确保它们都有明显的错误选择模式,但这样的替换仍可能对实验结果产生潜在的影响,在E1方面,作者对各量表比中所有参与者的偏差均值进行线性回归和趋势分析,因为参与者之间的偏差不存在显著差异。团队没有调查所有个体的偏见,而是关注总体的平均表现,这与Harrison等人的研究相似,对于E3,还没有得到一个准确的模型来指导偏差校正。主要原因可能是点半径和比例尺比率的测试水平仍然不够