
1.4.1 城市感知挑战
许多城市计算应用程序需要能够无干扰且持续收集城市规模数据的数据采集技术,这不是一个简单的问题。虽然监测单个路段的交通流量很容易,但持续探测全市交通是一项挑战,因为我们没有在每个路段部署传感器。建设新的传感基础设施可以完成这项任务,但反过来会增加城市的负担。如何创造性地利用我们在城市空间中已经拥有的资源来实现这种数据采集技术还有待探索。
更具体地,城市感知的挑战有四个方面:(1)偏斜样本数据,(2)数据稀疏和缺失数据,(3)隐式数据和噪声数据,(4)资源分配。表1.1列出了不同城市感知模式面临的挑战。我们将详细介绍每一项挑战。
表1.1 不同城市感知模式面临的挑战

1.4.1.1 偏斜样本数据
我们在城市计算场景中能感知到的数据集通常是一个样本,它可能不能准确地代表整个数据集,如图1.5a所示。样本中某些属性的分布可能会偏离整个数据集。从数据样本中获得关于整个数据集的真实知识仍然是一个挑战。

图1.5 采样数据的偏斜分布(见彩插)
例如,虽然我们可以收集出租车的GPS轨迹,但要追踪城市中行驶的每一辆车几乎是不可能的。这些出租车只是车辆的一个样本,它们的地理分布与其他出租车截然不同。如图1.5b所示,可能某些路段有许多私家车,但很少有或没有出租车,而其他路段有许多出租车,但很少有私家车。因此,要根据出租车的轨迹来估计道路的交通流量,我们不能简单地将道路上的出租车数量乘以一个特定的因子。从采样数据(即出租车轨迹)中得出道路的真实交通流量仍然是一个挑战。
同样,如图1.5c所示,用户在一个在线社交网络服务上的签到数据表示城市中一部分人的移动情况。由于有许多人在访问某个地方时不会进行签到,因此签到数据的地理分布可能与城市中实际人群的分布大相径庭。因此,根据签到数据来估计人群流量是具有挑战性的。
为了应对上述挑战,我们需要知道从数据样本中获得什么样的知识可以代表整个数据集,而什么不可以。例如,路段允许的行驶速度可以从经过此路段的出租车的GPS轨迹中得出。由于在同一路段上行驶的车辆通常具有相似的速度,因此从作为车辆样本的出租车获得的速度信息可以表示所有车辆的速度信息。然而,出租车的数量并不能直接转换为车辆的总数。在这种情况下,我们需要结合其他数据集的知识,如POI、道路网络结构和天气条件,来推断道路上的总交通量[41]。
1.4.1.2 数据稀疏和缺失数据
• 数据稀疏 许多传感系统仅在城市的少数几个地点部署了有限数量的传感器,基于这些在地理空间中稀疏分布的传感器来收集整座城市的详细信息是一个挑战。
例如,如图1.6a的左侧所示,在偌大的北京市区范围内仅部署了35个空气质量监测站。尽管这些传感器在城市中分布稀疏,我们仍希望能够感知整个城市的细粒度空气质量[71],如图1.6a的右侧所示。

图1.6 城市感知中的数据稀疏和缺失(见彩插)
图1.6b展示了另一个例子,旨在根据人们对噪声的投诉来感知纽约市的城市噪声[73]。由于让人们随时随地报告环境噪声状况几乎是不可能的,因此收集的数据在时空空间中非常稀疏。根据稀疏数据诊断整个纽约市的噪声状况仍然是一个挑战。
• 缺失数据 缺失数据 是一个不同于数据稀疏的概念,表示缺少应获得的数据。例如,如图1.7所示,空气质量监测站s1应该每小时生成一个关于空气污染的读数。然而,当遇到通信或设备错误时,我们会丢失一些传感器读数,例如,s1在t2时的读数和s3在ti+1时的读数称为缺失数据[50]。虽然补充这些缺失的值对于支持监测和进一步的数据分析很重要,但这项任务具有挑战性,原因有以下两点。

图1.7 时空数据集中的缺失数据
首先,任意传感器可能在任意时间戳缺失读数。在一些极端情况下,可能会连续丢失来自一个传感器的读数(例如,从t1到ti的s2的读数),或者在某个(或多个)时间戳(例如,t2)同时丢失所有传感器的读数。我们将这些极端情况称为缺失块。现有的模型很难处理缺失块问题,因为我们可能无法为模型找到稳定的输入。
其次,受到多个复杂因素的影响,传感器读数随位置和时间变化发生显著且非线性的变化。距离较近的传感器的读数不一定比距离较远的传感器更相似。此外,传感器读数在时间上波动巨大,有时会突然发生变化。
1.4.1.3 隐式数据和噪声数据
传统传感器生成的数据结构良好、明确、干净且易于理解。然而,在被动人群感知等程序中,用户贡献的数据通常是自由格式的(如文本和图像),或者不能像传统传感器那样明确地引导我们达到最终目标。有时,信息也可能带有噪声,因为人们并不是带着特定的目的收集数据。
例如,Zhang等人[59-60]旨在利用配备GPS的出租车司机作为传感器来检测加油站排队时间(当他们给出租车加油时),并进一步推断那里还有多少人也正在给他们的车辆加油。目标是估算加油站的汽油消耗量,最终估算给定时间范围内全市的汽油消耗量。在这个应用中,我们可以收集到的是出租车司机的GPS轨迹,这些轨迹并没有明确告诉我们汽油消耗的结果。与此同时,出租车司机把出租车停在离加油站较近的地方可能只是为了休息或等待交通信号灯。这些从GPS轨迹数据中观察到的行为是噪声,因为它们并不是真正的加油行为。
1.4.1.4 资源分配
尽管我们希望在城市感知程序中最大化数据收集的覆盖范围和质量,但通常面临资源限制,如资金、传感器和劳动力。这具有挑战性,具体原因有两个:数据质量测量和候选对象选择。
• 数据质量测量 我们需要一个明确的测量标准来评估感知程序收集到的数据。这个测量标准会因不同的应用而变化,包括数量、覆盖范围、平衡性、冗余性和稳定性。在某些应用中,测量标准很容易量化,例如覆盖最多的轨迹(互不相同)数量。然而,在其他应用中,定义测量标准是一个不好完成的任务。例如,如图1.8a所示,我们希望建立4个新的监测站以便在整个城市中最佳地监测空气质量。定义“最佳监测”是具有挑战性的,因为我们没有整个城市的空气质量的基准真实数据(ground truth)[71]。

图1.8 资源分配挑战的示例
同样,如图1.8b所示,在时空空间中定义由主动人群感知程序收集的数据的覆盖范围是非简单的,其中空间和时间维度可能具有不同的粒度[20]。按不同的地理大小和不同长度的时间间隔进行划分,收集到的数据将呈现不同的分布。对数据覆盖的评估将显著影响主动人群感知程序中的任务设计和参与者招募。
• 候选对象选择 基于上述测量,我们需要从大量候选对象中为城市感知程序进行选择,如地点、车辆和人员。这是一个非常复杂的问题,有时甚至是NP困难的。例如,从道路网络中找到一个包含k个地点的集合,使得有最大数量的互不相同的轨迹穿过这些地点[27],这是一个典型的固定传感器部署问题,可以转化为一个具有NP计算复杂度的子模近似问题。在移动感知领域的另一个例子是,选择几辆公交车来放置商业广告,以最大化看到广告的人数。
在主动人群感知程序中,如图1.8b所示,给定有限的预算,感知方案需要根据参与者的移动性选择合适的参与者,并为他们提供不会打断他们原有通勤计划的无障碍任务。这是困难的,因为城市中的人类移动性高度倾斜。如果没有有效的参与者招募和任务分配机制,一些地点将没有参与者贡献数据,而少数地方(例如,热门旅游景点)可能有过多的甚至冗余的数据,从而浪费资源。因此,我们无法确保最佳的数据覆盖范围,以更好地支持上层应用。