博士学位论文 -...

分类号： TP311 单位代码： 10335

密级：公开学号： 11221078

博士学位论文

论文题目: 不确定室内移动数据的分析挖掘方法研究

作者姓名: 李环

指导教师: 陈刚教授

合作导师: 寿黎但教授

专业名称: 计算机科学与技术

所在学院: 计算机科学与技术学院

论文提交日期 2018年 4月

A Dissertation Submitted to Zhejiang Universityfor the Degree of Doctor of Philosophy

Research on Uncertain Indoor Mobility Data

Analysis and Mining

Author: LI Huan

Advisor: Prof. CHEN Gang

Co-Advisor: Prof. SHOU Lidan

Subject: Computer Science

College: Department of Computer Science

Submitted Date April, 2018

不确定室内移动数据的分析挖掘方法研究

论文作者签名：

指导教师签名：

论文评阅人 1:

评阅人 2:

评阅人 3:

评阅人 4:

评阅人 5:

答辩委员会主席: 董金祥教授浙江大学

委员 1: 万健教授杭州电子科技大学

委员 2: 方攸同教授浙江大学

委员 3: 林兰芬教授浙江大学

委员 4: 童若锋教授浙江大学

答辩日期: 2018年 6月 7日

Research on Uncertain Indoor Mobility Data Analysis and Mining

Author’s signature:

Supervisor’s signature:

External Reviewers:

Examining Committee Chairperson:

Prof. DONG Jinxiang, Zhejiang University

Examining Committee Members:

Prof. WAN Jian, Hangzhou Dianzi University

Prof. FANG Youtong, Zhejiang University

Prof. LIN Lanfen, Zhejiang University

Prof. TONG Ruofeng, Zhejiang University

Date of oral defence： June 7, 2018

浙江大学研究生学位论文独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。

除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成

果，也不包含为获得浙江大学或其他教育机构的学位或证书而使用过的材料。与我一

同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

学位论文作者签名：签字日期： 2018年 6月 7日

学位论文版权使用授权书

本学位论文作者完全了解浙江大学有权保留并向国家有关部门或机构送交本论文

的复印件和磁盘，允许论文被查阅和借阅。本人授权浙江大学可以将学位论文的全部

或部分内容编入有关数据库进行检索和传播，可以采用影印、缩印或扫描等复制手段保

存、汇编学位论文。

（保密的学位论文在解密后适用本授权书）

学位论文作者签名：导师签名：

签字日期： 2018年 6月 7日签字日期： 2018年 6月 7日

浙江大学博士学位论文摘要

摘要

室内空间，作为核心的活动场所，占据了人类日常生活近 90%的时间。另一方面，室

内传感基础设施和移动智能终端近年来也取得了长足的进步和发展。在两方面因素的共

同作用下，由室内用户产生的移动数据正前所未有的速度持续地增长着。对规模庞大的室

内移动数据进行适当和有效的分析挖掘，将揭示和发现许多过去难以获知的有价值信息，

有力地支持包括顾客行为分析和精准营销、安防及紧急救护、仓储和物流管理、资源规划

及优化、环境污染及疾病预防在内的室内智能位置服务。然而，室内移动数据受到室内定

位条件和复杂动态的室内环境的影响，存在以下固有的问题：i)因采样稀疏和观测不充分

引起的时空不确定性；ii)因脱离上下文引起的语义不确定性。这些不确定性给分析应用带

来了巨大挑战。为应对这些挑战，本文充分考虑了室内空间拓扑、室内对象移动和室内定

位机制的一般性特点，对室内移动数据普遍具有的不确定性进行了通用的建模和分析，以

解决重要的移动知识挖掘问题。本文提出的不确定数据分析挖掘的方法和解决方案，具有

通用性和可扩展性，能广泛用于普适环境下获得的室内移动数据，有效降低当前室内数据

智能服务的开展条件。本文主要贡献及创新点如下：

(1) 本文提出并研究了面向时空不确定性的室内区域密度分析计算模型以及相应的密集区

域挖掘方法。其中，用于分析的在线室内定位数据仅包含每个移动对象的最新室内位

置报告信息。我们对室内密度的定义和计算模型进行了设计，以适应由离散的、老旧

的室内定位结果引起的对象位置不确定性。我们对密集区域挖掘计算中涉及的时空不

确定性进行了系统的分析，以推导得出室内区域密度的有效上下界。利用推导的密度

上下界，我们设计了高效的室内密集区域挖掘算法。通过在合成数据集和真实数据集

上的实验评估，充分验证了提出的密度分析计算模型的有效性和密集区域挖掘方法的

高效性、可扩展性。

(2) 本文提出并研究了面向时空不确定性的室内语义位置流量分析计算模型以及相应的热

点语义位置挖掘方法。其中，用于分析的历史室内定位数据将移动对象在过去某时刻

的位置描述为一组概率样本。我们对室内流量的定义和计算模型进行了设计，充分考

虑了移动数据的时空不确定性和室内拓扑限制的特点。为提升流量计算的效率，我们

设计了加速相关数据访问的数据结构、减少中间处理数据量的数据规约方法，以及总

体的室内流量计算算法。利用流量计算技术和空间剪枝技术，我们设计了基于最佳优

I

摘要浙江大学博士学位论文

先搜索的室内热点语义位置挖掘算法。通过在真实数据集和合成数据集上的实验评估，

充分验证了提出的流量分析计算模型的有效性、流量计算算法的高效性以及热点语义

位置挖掘方法的高效性和可扩展性。

(3) 本文提出并研究了面向时空和语义不确定性的室内用户移动语义挖掘方法。其中，用

于分析的原始室内定位序列存在定位错误、采样稀疏及缺乏语义信息等问题。我们提

出了三层结构的挖掘模型及对应的数据处理方法来抽取合理有效的移动语义元组。我

们在清洗层设计了基于室内移动性约束的数据清洗方法，以消减原始序列中的数据错

误。我们在标注层设计了基于时空密度的序列分割方法将清洗后的序列划分为多个片

段，同时设计了语义匹配方法对分割片段进行标注以构建对应的语义元组。我们在补

全层设计了基于概率推断的数据补全方法，利用从历史数据中获得的移动知识来恢复

序列中缺失的移动语义。通过在真实数据集和合成数据集上的实验评估发现，我们设

计的挖掘模型可高效地对原始定位数据进行处理，得到与真实情况相符的准确语义元

组；挖掘的移动语义也能对典型的数据查询进行有效和高效的应答。

关键词：室内移动数据；室内定位技术；不确定性分析；时空数据管理；密度分析；流量

分析；语义轨迹构建；概率模型

II

浙江大学博士学位论文 ABSTRACT

Abstract

Indoor space, as the core activity venue, accommodates nearly 90% of people’s daily life.

On the other hand, the recent years have witnessed the great development and popularity of in-

door sensing infrastructure and smartphones. Driven by these two key factors, the mobility data

produced by indoor users is continuously growing at an unprecedented rate. Proper and effec-

tive analysis of such massive indoor mobility data can reveal and discover many valuable insights

that were difficult to know in the past, and thus supports multiple indoor location based intelli-

gent services, such as customer analysis and precision marketing, security and emergency rescue,

warehousing and logistics, public resources planning and optimization, environmental pollution

and disease prevention, etc. However, indoor mobility data is still limited by the indoor posi-

tioning techniques and the complex, dynamic indoor environment, thus suffering the following

problems: i) Spatiotemporal uncertainty caused by low sampling issue and insufficient observa-

tions; ii) Semantic uncertainty caused by lack of application contexts. These inherent uncertainties

have posed great challenges to analytics. This thesis models and analyzes the aforementioned data

uncertainties, by fully considering the general characteristics of indoor topology, indoor object

movements, and indoor positioning mechanism. On the top of the uncertainty analysis, the thesis

further studies several important indoor mobility data mining problems. The proposed techniques

for uncertain data analysis and mining can be widely applied to the mobility data obtained from

pervasive indoor environments and can effectively reduce the development conditions of indoor

intelligent services. In summary, the main contributions of the thesis are as follows.

(1) We propose a novel indoor density analysis model and the corresponding dense region mining

approach. In particular, the online spatiotemporal-uncertain data we used only contains the

latest location report for each moving object. We first integrate object location uncertainty

into the definitions for counting objects in an indoor region and computing its density. Subse-

quently, we conduct a thorough analysis of the location uncertainty in the context of complex

indoor topology, deriving upper and lower bounds of indoor region densities. Enabled by the

uncertainty analysis outcomes, we design efficient mining algorithms for finding the currently

densest regions in the space. Moreover, we conduct extensive experimental studies on our

III

ABSTRACT 浙江大学博士学位论文

proposals using synthetic and real data. The experimental results demonstrate that our indoor

density definition is effective, and our mining algorithms are efficient and scalable.

(2) We propose a novel indoor flow analysis model and the corresponding most popular semantic

location mining approach. In the historical spatiotemporal-uncertain data we used, a position-

ing report contains a set of samples, each consisting of an indoor location and a corresponding

probability. To obtain reliable flow values, we propose an indoor flow definition that considers

both data uncertainty and indoor topology. To efficiently compute flows for individual indoor

semantic locations, we design data structures for facilitating accessing the relevant data, a data

reduction method that reduces the intermediate data to process, and an overall flow computing

algorithm. Furthermore, we design mining algorithms for finding the most popular indoor

semantic locations with highest flows. All proposals are evaluated extensively on real and

synthetic data. The evaluation results show that our indoor flow definition is reliable, our flow

computing algorithm is efficient, and our mining algorithms are efficient and scalable.

(3) We propose a novel indoor mobility semantics mining approach. The raw indoor positioning

data we used is uncertain both spatiotemporally and semantically. To translate the raw posi-

tioning sequence into a line of structured, comprehensive mobility semantics, we propose a

three-layer model in which each layer contains a set of novel techniques. In the cleaning layer,

we design a cleaning method that eliminates indoor positioning data errors by considering

indoor mobility constraints. In the annotation layer, we design a density based method that

splits positioning sequences according to underlying mobility events and a semantic match-

ing method that makes proper annotations for split snippets. In the complementing layer,

we devise an inference method that makes use of indoor topology and mobility semantics al-

ready obtained to recover the missing mobility semantics that are not observed in the raw data.

The extensive experiments verify that our solution is efficient and effective on both real and

synthetic data. For typical queries, our constructed mobility semantics lead to more precise

answers but incur less execution time.

Keywords: Indoor Mobility Data; Indoor Positioning Technologies; Uncertainty Analysis; Spa-

tiotemporal Data Management; Density Analysis; Flow Analysis; Semantic Trajectory Construc-

tion; Probabilistic Model

IV

浙江大学博士学位论文目次

目次

摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III

目次

插图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX

表格 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .XIII

算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XV

第一章绪论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 研究背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 室内移动数据采集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.2 室内移动数据管理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.3 室内移动数据分析挖掘 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3 研究动机及挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.4 研究内容 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.5 论文组织 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

第二章研究基础和发展现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1 室内移动数据的相关研究课题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1 室内定位技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.2 室内移动数据管理技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1.3 室内移动数据分析挖掘技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2 室外移动数据分析挖掘的相关研究课题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.1 不确定轨迹建模和分析技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.2 密度分析挖掘技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.3 流量分析挖掘技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.2.4 语义提取和轨迹翻译技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

V

目次浙江大学博士学位论文

第三章室内密度分析挖掘方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2 概念及问题设定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2.1 室内移动数据格式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2.2 问题定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.2.3 技术路线 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 对象移动不确定性分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3.1 室内缓冲区域与室内核心区域 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3.2 室内区域密度上下界 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.3 不确定区域的距离衰减建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.4 Top-k室内密集区域挖掘算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.4.1 总体框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4.2 单步搜索算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.4.3 改进的两步搜索算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.4 改进方法的性能增益分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.5 实验结果与分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.5.1 对比方法及度量模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.5.2 合成数据集实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.5.3 真实数据集实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.6 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

第四章室内流量分析挖掘方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.1 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.2 概念及问题设定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2.1 室内空间位置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2.2 室内移动数据格式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.2.3 问题定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.2.4 技术路线 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.3 室内语义位置的流量计算方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3.1 室内空间位置图和室内位置矩阵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3.2 数据规约方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.3.3 流量计算算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

VI

浙江大学博士学位论文目次

4.4 Top-k室内热点语义位置挖掘算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.4.1 循环嵌套算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.4.2 最佳优先搜索算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.5 实验结果及分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.5.1 对比方法及度量模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.5.2 真实数据集实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.5.3 合成数据集实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.6 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

第五章室内移动语义挖掘方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.1 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.2 概念及问题设定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.2.1 室内移动数据格式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.2.2 问题定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.2.3 移动语义挖掘模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.3 基于室内移动性约束的原始定位序列清洗 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.3.1 室内定位错误识别与修复 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.3.2 定位序列清洗算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.4 基于分割匹配的移动语义标注 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.4.1 基于密度的序列分割方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.4.2 语义匹配方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.5 基于概率推断的移动语义序列补全 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.5.1 移动知识构建 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.5.2 缺失移动语义推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.6 实验结果及分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.6.1 真实数据集实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.6.2 合成数据集实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.7 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

第六章结论和展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6.1 论文总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6.1.1 论文主要研究内容 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6.1.2 论文主要创新点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

VII

目次浙江大学博士学位论文

6.2 未来展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

附录 A 室内移动语义挖掘方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

A.1 基于密度的序列分割算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

A.2 语义匹配算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

A.3 移动知识构建算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

A.4 移动语义推断算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

攻读博士学位期间的研究成果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

致谢 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

VIII

浙江大学博士学位论文插图

插图

1.1 基于室内移动数据的智能服务示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 研究动机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3 研究方法框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4 论文结构组织 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1 室内移动模式挖掘示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2 不确定轨迹建模示例 [111] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1 室内不确定区域 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Top-k室内密集区域挖掘的技术路线 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 一般缓冲区域 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.4 室内缓冲区域 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.5 精确室内缓冲区域与室内核心区域 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.6 复杂查询区域的示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.7 k对计算效率的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.8 O对计算效率的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.9 |Q|对计算效率的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.10 Q中区域类型对计算效率的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.11 ∆t对计算效率的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.12 DDF对计算效率的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.13 k和 |O|对结果效力的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.14 ∆t和 |Q|对结果效力的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.15 ∆t和 Q中区域类型对结果效力的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.16 DDF对结果效力的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.17 ∆t和 |Q|对结果效力的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.18 DDF对结果效力的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.1 室内空间与位置示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

IX

插图浙江大学博士学位论文

4.2 Top-k室内热点语义位置挖掘的技术路线 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.3 室内空间位置图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4 室内位置矩阵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.5 移动对象 o2的定位数据规约示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.6 不同策略的热点语义位置挖掘算法对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.7 真实数据集的测试环境平面图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.8 mss对结果效力的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.9 k对计算效率的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.10 |Q|对计算效率的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.11 ∆t对计算效率的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.12 k对结果效力的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.13 |Q|对结果效力的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.14 ∆t对结果效力的影响 [真实数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.15 T 和 µ对计算效率的影响 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.16 T 对结果效力的影响 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.17 µ对结果效力的影响 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.18 |O|对计算效率的影响 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.19 k对结果效力的影响 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.20 |Q|对结果效力的影响 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.21 |O|对结果效力的影响 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.22 ∆t对结果效力的影响 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.1 真实世界中室内定位的数据错误示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.2 室内平面图示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.3 移动语义挖掘模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.4 原始室内定位数据清洗示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.5 基于密度的定位序列分割示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.6 确保到达距离示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.7 语义区域图模型示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.8 移动知识构建示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5.9 真实数据集上各标注方法性能对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.10 真实数据集上每日更新对结果效力的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

X

浙江大学博士学位论文插图

5.11 T 对查询应答效率的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.12 T 对查询应答效力的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.13 k对查询应答效率的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.14 |Q|对查询应答效力的影响 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.15 移动语义构建的有效性 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

5.16 查询应答的有效性 [合成数据集] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

XI

浙江大学博士学位论文表格

表格

2.1 室内移动数据查询分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1 室内密度分析挖掘方法符号表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 在线室内定位表示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.3 距离衰减函数示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.4 查询室内区域的类型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.5 合成数据实验的参数设定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.6 默认参数下计算效率比较 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.1 室内流量分析挖掘方法符号表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2 室内不确定定位结果表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.3 真实数据实验的参数设定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.4 默认参数下各算法性能对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.5 不同mss值下各算法计算效率对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.6 合成数据实验的参数设定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.1 室内移动语义分析挖掘方法符号表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.2 室内定位结果表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.3 真实数据上数据清洗及数据补全的效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.4 真实数据实验中查询应答的参数设定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.5 合成室内定位结果表实例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

6.1 本文研究问题的不同点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

XIII

浙江大学博士学位论文算法

算法

3.1 DetermineIbcRs(Region r, Distance δ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2 TopkIDRs(Indoor query region set Q, Partition R-tree RP , Online indoor positioning

table OIPT, Current time tc) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3 COUNT4ibcRs(Indoor buffer region ibr, Indoor core region icr, Partition R-tree RP ) . 43

3.4 Search1Pass(Max-heap H , Hash table hQ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.5 SearchImproved(Max-heap H , Hash table hQ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.6 OverCount(Indoor region r, Object set set⊤, Object set set⊥, Current time tc) . . . . . . . 45

3.7 COUNTu(Indoor region r, Object set set, Current time tc) . . . . . . . . . . . . . . . . . . . . . . . 45

4.1 ReduceData(Sample set sequence X , Indoor semantic locations Q) . . . . . . . . . . . . . . . . 68

4.2 Flow(Indoor semantic location q, 1DR-tree tree, Query time interval [ts, te]) . . . . . . . . 70

4.3 NestedLoop(Indoor semantic locations Q, 1DR-tree tree, Query time interval [ts, te]) . 71

4.4 BestFirst(R-tree RQ for indoor semantic locations Q, 1DR-tree tree, Query time in-

terval [ts, te]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.5 ExpandList(Node entry eQ from R-tree RQ, Join list list) . . . . . . . . . . . . . . . . . . . . . . . . 74

5.1 MobilityConstraintCleaning(P-sequence Θo, Maximum moving speed Vm) . . . . . . . . . . 95

5.2 SplitMatchAnnotation(P-sequence Θo, Event identification function E , Semantic re-

gion graph GR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.3 InferenceBasedComplementing(Set of ms-sequences SΛ, Semantic region graph GR) . 101

A.1 DensityBasedSplitting(P-sequence Θo, Temporal distance threshold ϵt, Spatial dis-

tance threshold ϵs, Tolerate time span ∆t, Tolerate spatial distance ∆s) . . . . . . . . . . . . . 131

A.2 SemanticMatching(Split snippet Θ∗o, Event identification function E , Semantic region

graph GR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

A.3 MKConstruction(Semantic region graph GR, Set of original ms-sequences SΛ) . . . . . . 133

A.4 MSInference(Observed ms-sequence Λo, Hash tableMK, Semantic region graph GR) 133

XV

浙江大学博士学位论文第一章绪论

第一章绪论

1.1 引言

多项重要研究报告 [1–3] 表明，人们日常生活中超过 87%的时间是在室内空间中度过

的，办公楼、住房、购物中心、机场、车站等室内场景构成了人类活动的核心部分。为更

加有效和便利地利用室内空间的资源，对室内活动的正常秩序进行维护和管理，完成构建

“智能室内环境”的宏远目标，从上世纪末期开始，以 RFID、蓝牙、Wi-Fi、监控摄像头为

代表的电子传感技术开始进入到室内环境的各个角落。尤其是近年来，随着智能手持 [4]及

可穿戴 [5] 设备的广泛普及，全球范围内的无线基础设施建设也进入了井喷式的扩张阶段，

室内空间的传感网络环境与短短几年前相比已经发生了翻天覆地的变化。

室内传感环境的日趋成熟也极大促进了室内定位技术À的大力发展 [6]。根据市场情报

机构 ABIResearch的预测结果Á显示，2018年将有超过 8亿台智能手机频繁地使用室内定

位服务，这一水平将与当前在室外使用 GPS定位的情况达到同一标准量级。同时，工业

界也在持续推动室内地图服务的发展，包括谷歌、苹果、Micello、IndoorAtlas在内的地图

服务商已在全球范围内构建了颇具规模的室内地图网点 [7]。据报道，2016年仅美国境内就

有超过 200,000的室内场所被电子地图所覆盖Â。伴随着这些利好，数量庞大的移动对象

（如行人、设备、货物等）在室内空间中被观测到的位置与行为，开始被逐步数据化并呈

现出爆发式增长的势头。（Indoor Mobility Data）已成为人类社会发展的又

一笔宝贵财富。通过对大规模的室内移动数据进行适当的分析与挖掘，可以提升对复杂室

内环境下移动对象行为的理解，获取有效的室内行为知识从而实现相关智能服务的构建。

近年来，随着数据管理和机器学习等相关理论及方法的完善和发展，一些计算机学者

开始投身于针对室内移动数据的分析挖掘研究中，在许多国际顶级和重要会议上发表了大

量工作，主要集中在移动模式挖掘 [8–12]、热点资源发现 [13–18]、移动行为推断预测 [19–22] 等

方面。其中，移动模式挖掘是从传感数据序列中提取与室内移动相关的频繁模式 [8,11]、序

列模式 [9] 或预定义行为模式 [10,12] 等。根据对象的不同，热点资源发现的目标可以是频繁

被使用/访问的室内路径 [13,14]、室内位置或物体 [15,16]、室内区域 [17,18]等。针对室内定位技

À以 GPS为代表的全球定位系统，受限于建筑物严重遮蔽卫星信号的问题，一直无法在室内环境中得到良好使用。Áhttps://www.abiresearch.com/press/over-800-million-smartphones-using-indoor-location/Âhttps://mobilemarketingwatch.com/u-s-indoor-location-based-search-could-grow-45-44503/

1

第一章绪论浙江大学博士学位论文

术采集的移动位置序列，移动行为推断预测的主要目的是从中对用户的特定行为进行识

别，并基于此对用户未来的移动目标和事件进行合理的预测。

在业界，丰富的室内移动数据也掀起了基于位置的智能服务（Location based Intelligent

Services）在室内商业环境下的一轮新浪潮。早在 2013年，苹果公司就开始推广基于低功

耗蓝牙的 iBeacon技术，并逐步在 iOS的各个版本中增强对终端用户的移动追踪以便支持

更强大的智能位置服务。IBM和思科近年来纷纷开始在零售产业的商业智能上发力，并

分别提出了整套的客户追踪、行为分析及营销的解决方案。国内公司中，支付宝团队和微

信团队都已深入对室内无线热点数据的采集和分析，以更好地开展移动端产品的场景推

断和服务预测等。同时，在人工智能技术的推动下，一些初创科技公司如 Indoo.rs、Carto、

Infsoft、Inpixon、Sewio、Nextome 等，都开始专注于对室内移动数据的专向分析挖掘服

务。如图1.1所示，诸多的智能应用如顾客行为分析 [23,24] 和精准营销 [25,26]、安防及紧急救

护 [27,28]、仓储和物流管理 [29]、资源规划及优化 [30,31]、环境污染及疾病预防 [32,33] 等都能显

著受益于对室内移动数据的知识发现。上述的室内智能服务，对政府机构、商业团体以及

个人而言都具有重大的使用价值，彰显了其深远的社会经济影响力。

Figure 1 depicts the main elements of the solution.One element includes physical sensors and networkinfrastructure that are deployed in the indoor venue tocapture transmissions from WiFi-enabled devices. A secondelement involves the Presences Zones server that isresponsible for accurately computing devices’ locationsas well as for extracting insight into customer behaviorindoors. In addition, the solution integrates with thebroader IBM portfolio of Smarter Commerce* productsto deliver comprehensive marketing capabilities suchas cross-channel marketing optimization, personalizedpromotions, and more.

Presence zones sensors and networkAs mentioned, the solution is based on the deployment ofdesignated sensors that are able to Blisten[ to transmissionsfrom WiFi-enabled devices. All WiFi-enabled devices whoseWiFi is turned on interact with WiFi network in the venue,whether they are logged on to the WiFi network or not. ThePresence Zones sensors capture the unique identifier of the

device and send information about the strength and number ofpackets transmitted to the Presence Zones Server. Themedia access control (MAC) address is used as the uniqueidentifier of the device. Although some vendors have begunrandomizing the MAC address, the real MAC address isused when the device connects with the WiFi network.The location of the device is then calculated based on theinformation about that device, which is received by multiplesensors in the venue. The deployment of the sensors in thephysical venue needs to be planned in such a way that thesensors will provide sufficient Bcoverage[ to accuratelycompute location.

Presence zones serverAt its core the Presence Zones server includes a modulefor computing and tracking the location of devices inthe indoor venue. The computation of location is based onthe principle of the raw signal data being detected by multiplesensors in the venue, and that the system can be trainedto learn how specific analytical patterns over this data Blook[

Figure 1

The solution architecture. The Presence Zones server captures data collected from WiFi sensors and analyzes in-store customer behavior. Theintegration with the Smarter Commerce family of products enables delivery of a unified, cross-channel, personalized marketing solution.

3 : 4 A. YAELI ET AL. IBM J. RES. & DEV. VOL. 58 NO. 5/6 PAPER 3 SEPTEMBER/NOVEMBER 2014

(a)顾客行为及营销分析 [23] (b)室内路径规划分析 [31]

(c)异常入侵分析 [27] (d)物流监控数据分析 [29]

discussion; section IV represents observations and findings; section V tells the challenges faced during project execution and section VI concludes with future work plan.

II. RELATED WORK

Pillai et al. [4] represents the simplest air quality monitoring module based on CAN (Controller Area Network) protocol. Sensor nodes comprise of CAN controller and CAN transceiver. Each node is interfaced with VOC (Volatile Organic Compound) sensors, continuously monitoring environment and putting sensor data into CAN bus. One motor control node is also interfaced with the same CAN bus which is turning on alarm and switching on an exhaust fan whenever sensor data crossing predefined limit. An array of polymer/CB (Carbon Black) based chemiresistors connected to TelosB motes from Crossbow Inc. by a signal conditioning circuit made a wireless e-nose for distributed air quality monitoring applications developed by De Vito et al. [5]. Wireless e-nose setup was exposed in a controlled chamber to different concentrations of three kinds of terpene in humid air. The set-up was able to identify the principal terpene which is accounted for 81.05% of total variance, but not able to find out the other two. In acetic acid spill detection test sensors response were positively correlated with increasing acetic acid flow. Chengbo Yu et al. [6] measure temperature, soil temperature, dew point, humidity and light intensity in real time by wireless sensor network working on ZigBee technology [7]. Sensor nodes deployed in greenhouse send data to sink node by multi-hop. Sink node connected with GPRS/CDMA can provide remote control and data download service. Data received by sink node

periodically can be seen by running greenhouse management software. Their system had been tested in a 300 m2 greenhouse in ChongQing Agriculture Demonstrate Center of China for more than one month and helped in monitoring proper growth of delicate vegetables. Indoor air quality (IAQ) monitoring system based on ZigBee wireless sensor network implemented with the TI CC2430 ZigBee chip is described by Ching-Biau Tzeng et al. [8]. In their proposed system, a temperature, relative humidity and carbon dioxide (CO2) sensing module were integrated with each sensor node, which was placed in different indoor environment to monitor the IAQ parameters. The data acquisition was carried out by running a data logger program. The test result shows that not only CO2, the proposed system can be used for detecting some harmful gases too.

III. ARCHITECTURE OF INDOOR AIR QUALITY

MONITORING SYSTEM

Figure 1 shows the architecture of the proposed monitoring system. The Indoor Air Quality monitoring system is designed and developed to obtain data of various air quality parameters; gases (CO, CO2), aerosols (PM2.5, PM10) along with other parameters like temperature and humidity.

A. Hardware Module

Waspmote from Libelium [9] is used as the basic wireless sensing module that comprises of both processing and wireless communication module. The mote is having ATmega1281 as its microcontroller and Xbee module from Digi as the ZigBee based wireless communication module operating at 2.45 GHz.

Figure 1. Architecture and Sub systems of proposed Indoor Air Quality Monitoring System

IAQ Monitoring Module of the building

HVAC Control

IAQ Data

Demand Control

Ventilation

IAQ Data

Context Aware

Framework

Sensor database

IAQ GUI Module

423

(e)空气污染事件分析 [33]

图 1.1 基于室内移动数据的智能服务示例

Figure 1.1 Examples of the Intelligent Services based on Indoor Mobility Data

室内分析挖掘应用的蓬勃发展，离不开其下层室内移动数据的采集和处理。在工业

界，绝大多数应用级别的数据分析产品都是构建在专门研发的高精度定位服务之上的，往

往需要更多成本的投入。而事实上，许多室内环境中已经部署了传感基础设施，而其中大

2


部分并非为定位服务而专门设立，加之定位计算本身容易受到室内动态变化环境的影响，

使得采集的移动数据具有天然的不确定性，这给室内移动数据的分析挖掘带来了新的挑

战——

因此，如何针对室内移动数据固有的不确定性和

室内环境下一般的结构特性、对象移动特性，适应和解决在普适室内场景下的分析挖掘问

题，将具有非凡的意义和价值。结合学术界的大量前瞻性研究成果和工业界的实际应用需

求，本文着眼于不确定室内移动数据的分析挖掘方法研究，结合室内空间上下文特性、室

内对象移动特性，对室内移动数据普遍具有不确定性进行通用的建模和分析，用以支持和

提供多项典型的室内移动知识的计算和挖掘方法，具有重大的研究意义。

1.2 研究背景

本文研究的主要对象为室内产生的移动数据，学术界对其的相关研究可分为三个层

次，即室内移动数据采集（室内定位追踪）、室内移动数据管理和室内移动数据分析挖掘，

本章将简单对相关课题的发展沿革进行介绍和回顾À。

1.2.1 室内移动数据采集

相较于愈趋完善的室外定位技术，室内定位跟踪 [34]主要面临三方面挑战：(1)

包括 GPS、GLONASS、北斗在内的卫星定位服务具有天然的全球覆盖性，而

室内的定位方案必须依据特定的基础设施进行专门设计，缺乏统一的架构。(2)

近乎所有定位技术都会受到环境因素的影响，而室内定位尤为显著。环境的动态

变化一方面会使定位传感元件精度严重下降（如空气温湿变化会干扰无线传输的信号强

度），另一方面会导致原有的语义信息失准（如房间编号的更替和功能区域的重新划分）。

(3) 尽管室内定位基础设施相比室外定位要薄弱许多，但因室内空间划

分复杂、区域和人流活动密集，室内定位的精度要求往往更为严苛。只有给出充分的细粒

度位置（如准确的楼层、区域）才能支撑有效的上层计算分析服务。近年来学术领域对室

内定位跟踪的研究日益重视，主要可分为基于无线信号的定位跟踪 [35,36]、基于计算机视觉

的定位跟踪 [37]，以及基于无线信号和/或计算机视觉的混合定位跟踪 [38]。

早期的无线信号定位技术如红外 [39]、超声波 [40]、UWB [41]、高频全方位测距 [42]等，主

要依赖于定位端和移动端的专用硬件设备，部署成本高昂、对应技术的应用范围十分有

限。随着智能终端的普及，基于Wi-Fi、蓝牙或 RFID芯片的三边/多边测距定位（Trilater-

À一些重要工作的关键技术和具体方法将在第二章进行阐述。

3


ation/Multilateration）技术开始出现。由于无线芯片采集的 RSSI（Received Signal Strength

Indication）具有与传播距离负相关的特性，基于 RSSI测距的方法得到广泛使用，该方法

根据多个部署锚点（anchor）的已知参考位置及锚点与移动端的距离估计，求解线性方程

组来估算移动端位置。由于无线信号传播的波动性，测距模型的参数必须要根据特定环境

进行周期性校准。RSSI也被广泛用于指纹定位（Fingerprinting）方法 [46]。其基本原理为，

利用 RSSI在不同物理位置的空间差异性，将特定参考点（reference point）采集到的各锚

点 RSSI构建为指纹特征À，并建立位置-指纹关系数据库（radiomap），通过基于特征相似

度 [47]的指纹匹配进行移动位置估计。构建 radiomap的过程被称为现场勘测（site survey），

即离线训练阶段；指纹匹配的阶段被称为在线服务阶段。指纹定位的重大缺点即需要反

复执行离线勘测来更新 radiomap以防止无线信号和室内环境变化带来的训练干扰 [52]。无

论是测距模型还是指纹匹配模型，都需耗费大量人力对场地进行采样校准或勘测。因此，

在大部分实际应用中，对象跟踪常采用一种临近定位（Proximity Analysis）或称符号定位

（Symbolic Localization）的方法。临近定位是一种平台端定位技术，当对象进入锚点的无

线覆盖范围时产生对应的跟踪记录。一条临近定位记录可表达为 ⟨s, o, ts, te⟩，表示移动对

象 o在 ts 时刻和 te 时刻分别进入和离开设备 s的感应范围，这是一种十分粗粒度的位置

表达，其精度与锚点的部署情况和无线感应范围均有很大关系。

随着视觉技术的发展，利用移动端采集的图片或视频帧进行位置估计的方法也受到许

多关注，其主要依靠从已知视觉模型中反推相机在三维空间中的相对位置或朝向（pose）来

进行定位跟踪，可广泛用于增强现实应用。该类方法的理论基础为，立体相机系统（stereo

camera system）可根据投影变换原理 [61]将物理空间中任一点 (X,Y, Z)映射为相机投影原

点 (X0, Y0, Z0)下图像的平面坐标点 (x′, y′)：

X

Y

Z

=

X0

Y0

Z0

+ λR

x′

y′

−c

(公式 1.1)

其中，λ为尺度因子，c为标定（calibration）常数，待求解变量 R是一个 3×3的旋转矩阵，

其描述相机的相对朝向信息，可进一步结合三角测量（triangulation）原理 [62] 计算空间中

准确的相机三维位置。基于视觉的定位技术包括参照图像特征点的定位 [63–65]、参照标识

物的定位 [66,67] 和无参照的 SLAM（Simultaneous Localization and Mapping）定位 [68,69] 等。

其中，参照图像特征点和标识物的方法分别受限于图像匹配鲁棒性和标识物设置的问题，

À指纹特征向量可从移动端收集构建，或反向从各锚点中收集合成，甚至将上述两者进行组合。

4


在实际应用中受到很大限制；SLAM方法主要面向对摄像头有特定依赖的场景，对单纯的

移动位置服务而言，SLAM的电能消耗、交互方式和计算代价都提高了其使用的门槛。

室内基础设施和移动传感元件的进一步升级和丰富，也推动了各类基于无线信号和/或

计算机视觉的混合定位技术的发展。混合定位跟踪对于多个定位模型的使用具有两种不

同思路。一种思路为，将计算简易但精度低的模型用于粗粒度的范围判别，而将计算复杂

但精度高的模型用于后续的位置精化，典型的模型组合如蓝牙临近定位 +Wi-Fi 指纹 [70]、

RSSI信号 +惯性测量单元 [71]等。另一种思路为，利用在同一物理位置收集的多源数据特

征，建立融合模型对不同数据的相关性进行学习和构建，从而对不同位置场景的特征进行

表达和区分。例如，文献 [72] 利用Wi-Fi指纹、陀螺仪读数的混合特征对视觉共性场景进

行表达，并在位置估算阶段借助视觉匹配进行相机姿态恢复；文献 [73] 通过粒子滤波算法

对空间中同时采集的图片、激光扫描数据、RSSI和惯性读数进行处理，恢复目标定位空

间的二维、三维模型用于后续的视觉定位跟踪。

综合上述的室内定位跟踪技术，可以发现：完全或部分依赖计算机视觉的方法对定位

设备和定位环境有较高的条件要求，不具有普遍适用的特点；使用无线基础设施的定位方

法，特别是基于Wi-Fi的方法，其普及度和应用门槛更低，可广泛用于获取海量的移动位

置数据。然而，无线定位方法，虽然在模型和算法上有一定优化空间，但受限于信号传播

和室内环境的波动性，在精度上依然难以保障。因此，无线定位采集的移动数据，具有天

然的不确定性，必须要根据上层问题的求解需要进行更深入的分析与处理。

1.2.2 室内移动数据管理

室内移动数据的持续爆发式增长带来了新的挑战，如何面向复杂的室内环境进行有

效、高效的移动数据管理 [7] 成为亟待解决的重要问题。其相关研究主要可分为三个部分，

即室内空间建模及数据索引、室内移动数据清洗和室内移动数据查询。

室内空间中充斥着大量实体对象，如门窗、墙体、房间、楼道、障碍物等，这使得

室内空间对移动对象的约束不同于自由空间或路网空间。已有的室内空间模型大致可分

为三类：基于对象特征的空间模型 [74]、基于几何坐标的空间模型 [75]和基于符号的空间模

型 [76–80]。其中，侧重描述实体对象的属性、操作及关联。这类模型拥有良好

的扩展性，但缺少对几何关系的描述难以应对室内距离及方向敏感的查询计算需求。

通常利用图像处理的方法将室内平面图转化为可计算的栅格模型或边界矢量模

型，其能够支持位置、方向和距离相关的计算，但缺乏对空间实体的语义表达不能解决诸

如导航、解说等应用需求。是目前流行的室内空间建模方法，其能有效捕捉

5


与空间实体关联的语义信息并保留基本的几何及拓扑关系，该类模型对空间实体的关系

描述常采用基于图的方法。目前，大多数的室内空间模型都没有考虑到室内环境动态变化

的特点，在空间拓扑发生改变时需要较大的代价进行重建。为提升室内移动数据计算和存

储的效率，一些研究针对室内空间中静态数据（如定位记录、轨迹等）和移动对象的特点

设计了不同的索引。根据采集移动数据的不同格式，其可分为面向类 RFID的临近定位序

列的索引结构 [17,81–83]和面向几何定位记录/轨迹的索引结构 [80,84,85]等。目前已有的索引技

术开始注意到定位记录和轨迹存在的不确定性，并引入了对索引对象的不确定建模，如针

对临近定位稀疏采样的位置模型 [82,83]和几何定位概率化采样的位置模型 [85]等。

各种定位技术产生的室内移动数据均在不同程度上存在误差和不确定性，在预处理阶

段对室内移动数据进行清洗以提升数据质量一直是重要的研究课题。根据室内移动数据的

特定格式，相应的数据清洗技术可分为符号定位数据清洗和几何定位数据清洗两类。在符

号定位中，由于锚点（如 RFID reader、蓝牙/Wi-Fi热点等）的无线感应范围的重叠，移动对

象在同一时刻可能存在多个锚点的位置记录，这一类错误被称为假阳性（false positives）；

相反，由于无线感应范围偶发性失效，移动对象的位置记录可能在某一时间段内存在缺

失，即假阴性（false negatives）。符号定位数据清洗 [86–91]主要针对上述两类数据错误分别

进行消歧（disambiguation）和复原（recovery）。在几何定位中，数据清洗的目标是减少因

随机误差或错误（楼层错值或异常点）带来的观测轨迹和原始轨迹的数值差异。经典的滤

波算法如贝叶斯滤波 [92]或卡尔曼滤波 [93]可用于修正和精化连续定位结果，也存有极少针

对特定室内路径约束进行位置清洗和精化的方法 [94]。

针对特定的查询语义，一些面向室内移动数据的查询处理方法被提出。

主要包括空间实体对象查询 [95]、室内 POI（Point of Interest）查询 [96]、室内活动

事件查询 [97]等。根据不同标准求解从起始位置到目的位置的最优行走路径，

如基于路径长度的查询 [98]、基于用户偏好的查询 [99]、基于上下文感知的查询 [100] 等。典

型的如空间范围查询 [80,82,85,102] 和 k 近邻查询 [80,83,85]。同时具

备时间和空间条件的限制，其中空间条件也可用符号范围表达，如单元空间 ID [101]或连续

RFID reader序列 [81]。可用于查找在时间和/或空间属性上相干的数据对象，如距

离敏感的连接查询 [103] 和概率自连接查询 [104]。用于查找在度量上相似的

轨迹对象。文献 [105]提出了一种同时考虑空间和语义属性的室内轨迹相似度度量方法。目

前大部分的室内移动数据查询方法采用确定性数据设定，近年来有少量工作 [83,85,103] 开始

考虑到定位中因数据老旧、采样不充分带来的数据不确定性影响。

综合上述的室内移动数据管理技术，可以发现：现有的室内空间建模、移动数据对象

6


索引及数据查询处理方法，均面向特定的问题和数据格式，带有较强的前提假设且很少考

虑到移动数据本身的高不确定性对问题解决的影响。而目前流行的室内移动数据清洗技

术主要专注于符号定位数据的消歧和复原，缺少通用的方法和框架对更为常见的室内几

何定位记录/轨迹进行不确定分析和错误识别与恢复。

1.2.3 室内移动数据分析挖掘

移动数据在一定程度上捕获了对象在空间中的运动情况，利用室内移动数据进行分析

和挖掘成为近年来热门的研究课题。相关研究主要包括室内移动模式挖掘 [8–12]、室内热点

资源发现 [13–18]和室内移动预测 [19–22]等。

从移动对象产生的定位序列（几何或符号位置）中找出频繁的、相似的移动模式可以

帮助分析和理解室内的移动行为。面向 RFID对象跟踪过程中产生的信号强度数据，Liu

等人 [8] 提出了一种频繁轨迹模式的识别挖掘方法。Radaelli 等人 [11] 考虑从 RFID 符号定

位记录中识别出一种以定位元件序列表示的动作模式，并找出大于给定支持度的频繁项。

Yun等人 [9] 针对移动商务环境下用户产生的多源数据如购买事务和路径遍历等，提出了

一种新型的移动序列模式挖掘方法来更好分析移动用户的购买行为。Delafontaine等人 [12]

研究了从蓝牙跟踪序列中发现移动用户的位置访问模式的方法。上述工作均假定移动观

测序列具有较高精度，没有考虑定位跟踪不确定性带来的影响。近年来，Teng等人 [10]提

出了一种从不确定的 RFID符号定位序列中识别和发现室内停留模式的方法，其对于位置

不确定性的建模考虑了室内空间的拓扑约束和对象的速度约束。

通过对室内移动数据的分析，可查找出环境中被移动对象频繁访问/使用的路线、位

置或区域，进而帮助相关资源的规划或推荐。Chen等人 [13]提出了一种使用无线信号随机

序列抽取动态室内环境中语义位置的方法。Prentow 等人 [14] 提出了一种基于直接路线聚

类和簇内共性路线识别的最常用室内路径检测方法。Jin等人 [15]考虑了用户对位置的兴趣

及用户与位置间的相互强化关系，提出了一种从室内轨迹中查找热点位置的方法。针对

RFID跟踪数据，Hussein等人 [16] 考虑了受限路径空间（如行李传送带）中瓶颈点的推理

技术。面向于半受限路径空间（如住房），Ahmed等人 [17]提出了一种从符号定位数据中查

找密集区域的方法，Lu等人 [18] 提出了一种利用 RFID跟踪数据挖掘频繁被访问地点的方

法。在上述两项工作中，室内地点在特定时间范围内移动对象的通过数量被分别用于计算

区域密度和区域流量，对于对象数量的计算仅采用了确定性的位置报告作为输入。

对室内移动行为进行预测可帮助室内资源的合理调配，例如在无线网络环境下的用

户位置预测可用于解决服务质量、会话无缝切换、资源预分配等问题。Prasad等人 [19] 提

7


出了针对室内无线环境的移动预测框架，将Wi-Fi AP序列表达为观测序列，并基于二阶

隐马尔可夫模型，利用对象的当前和前一位置对下一位置进行预测。不同于采用粗粒度的

AP序列作为训练数据，Chon等人 [20] 提出了一种面向高精度、连续的室内移动轨迹数据

的时态行为预测方法。Indoor-ALPS [21]是一个自适应的室内位置预测框架，可用于密集室

内位置拓扑下移动用户的时空行为预测，包括位置离开时间预测、下一位置预测和两者结

合的时空预测。不同于上述采用原始移动数据的时空特征进行预测的方法，Dash等人 [22]

提出了一种基于抽象行为模式的预测方法来推测用户的下一位置。以上对室内移动或行

为序列的建模过程，同样采取了确定性假设。

综合上述的室内移动分析挖掘技术，可以发现：现有的利用室内移动数据进行模式

挖掘、热点资源发现和移动行为预测的方法，在数据模型、问题定义和解决方案上都存在

较大差异。同时，仅有极少数工作在问题模型中考虑了采样或观测不确定性带来的干扰，

并设计了相应的数据清洗方法在数据输入层面对不确定性进行预先处理。然而，仅在输入

层引入清洗并不能确保数据输入的质量提升反而容易造成信息量的损失，在许多挖掘问

题中需要考虑引入不确定数据的建模和计算方法来严格保证问题输出的界。

1.3 研究动机及挑战

通过上节对室内移动数据相关研究的回顾可发现，室内移动数据的质量受到三大因素

影响：i)室内定位软硬件条件的局限性；ii)室内环境的特殊空间结构和动态变化特点；iii)

室内对象运动的随机性和复杂性。因此，室内移动数据往往具有以下三方面缺陷：

(1) 采样稀疏相较于连续报告经纬度坐标的 GPS序列，室内定位的采样频率通常很低。首

先，部署的定位元件难以对目标空间进行完全覆盖；同时，定位元件对移动对象的采

样具有一定间隔。因而，室内移动数据通常是一组十分离散的位置报告——在两个连

续报告间的移动情况是未知的，而用于计算的对象位置数据通常是老旧的。当需要在

特定时刻对室内环境中对象的静态移动情况进行分析时，数据中的位置报告可能已经

过时，对象此时的位置可能已经发生了改变，因此分析时刻的对象移动信息是很难通

过计算和推测来获知的。

(2) 测量不准确受到测量精度和定位算法有效性的影响，特定时刻的位置信息常常是不准

确、表达不充分的。在符号定位中，跟踪记录中可能存在假阳性和假阴性；而在几何

定位中，以坐标点表示的位置采样可能具有一定范围的误差甚至错误。为增加定位的

合理性和鲁棒性，一些定位系统还对位置结果进行了概率化的采样。当需要对特定时

间范围内室内环境中对象的动态移动情况进行分析时，对象在每一时刻的位置可能由

8


多个样本给出、具有很多不同的可能性，故而很难推断其真实的移动轨迹。同时，多

个时刻的多个位置样本也大大增加了动态移动情况分析的计算代价。

(3) 脱离上下文室内定位给出的移动信息仅停留在时空层面，缺少对语义相关上下文的直

接描述，这使得进行移动行为分析时，必须要将数据映射到具体的上下文实体上。然

而，室内定位的有限条件和室内环境/移动对象的复杂特性又存在极大矛盾：一方面，

对象定位信息因采样稀疏和测量不准确已经具有很大程度的偏差和缺失；另一方面，

在较小的室内空间范围内可能需要容纳精细而复杂的上下文实体（如定义的语义区域

和移动行为等）。两方面因素的共同作用，室内移动数据在转换到语义层面上时往往

会产生更严重的误差，对象在特定时空范围的事件行为可能无法确定，对象行为分析

的难度因而显著增大。

综上可知，室内移动数据天然具有不确定的特点，即由采样稀疏、测量不准确导致的

和因脱离上下文导致的。这些不确定性普遍存在于分析挖掘

的应用场景中，特别是考虑到大量定位系统都构建在条件有限的已有基础设施之上。因

此，如果能够对普遍存在的数据不确定性进行通用的建模和分析，更合理和有效地支撑上

层的分析挖掘过程，将降低室内数据智能服务开展的先决条件，拓宽其实际应用的范畴，

进而极大地提升室内商用、民用环境下数据分析服务的质量，推动相关产业的持续发展。

室内移动数据的固有不确定性

时空不确定

语义不确定

室内环境的动态变化

室内对象的复杂运动

室内定位的有限条件

室内环境的动态变化

室内对象的复杂运动

室内定位的有限条件

共同导致

采样稀疏

测量不准确

脱离上下文

密度分析挖掘

流量分析挖掘

移动语义挖掘

静态移动场

动态移动场

动态移动行为

室内分析挖掘维度

图 1.2 研究动机

Figure 1.2 The Motivation of Our Research

为解决上述问题和挑战，本文从实际的应用场景入手，考虑了当前热门的室内分析挖

掘问题。如图1.2所示，移动知识分析挖掘的维度既可以包括，也可以包括

。其中，移动场指的是对象在空间环境中的整体运动情况，典型的静态场即快照时刻空

间中的对象密度情况，而典型的动态场即一定时间范围内对象的流动情况。静态和动态移

动场的分析都涉及到移动数据的时空不确定性，本文将分别针对静态场和动态场提出室

内密度分析挖掘方法和室内流量分析挖掘方法。另一方面，移动行为是对象在语义层面上

移动属性的体现，本文还将针对动态（即一定时间范围内的）移动行为提出室内移动语义

9


挖掘方法，其同时涉及到对时空不确定性和语义不确定性的分析处理。

1.4 研究内容

本文在充分调研当前移动数据管理和分析挖掘相关文献的基础上，深入分析现有方法

在面向室内的、不确定的移动数据时的挑战和不足，结合国内外大量研究成果，针对室内

移动数据固有的不确定性特点，对当前热门的分析挖掘问题进行了研究，提出了相应的解

决方案。本文技术方法的研究框架如图1.3所示，为进行高效和有效的时空和语义不确定

性分析，本文的研究充分考虑了室内空间拓扑、室内对象移动和室内定位机制的一般性特

点，在底层设计和使用了合理的移动数据索引、室内空间模型、室内移动模型及上下文实

体模型。本文研究的内容和具体的研究方案包括：

• 本文提出并研究了新型的室内区域密度计算分析模型及相应的密集区域挖掘方法。

其中，用于分析的在线定位数据仅包含每个移动对象的最新位置报告。首先，我们

对室内密度的定义和计算模型进行了设计，以适应由离散的、老旧的室内定位结果

引起的对象密度位置不确定性。随后，我们对密集区域挖掘计算中涉及的时空不确

定性进行了系统的分析，以推导得出区域密度的有效上下界。利用分析结果，我们

对密集区域挖掘算法进行了设计，以合理选择候选区域提升密度分析计算的效率。

• 本文提出并研究了新型的室内语义位置流量分析计算模型及相应的热点语义位置挖

掘方法。其中，用于分析的历史定位数据将每个移动对象在某时刻的位置描述为一

组概率样本。为获取可靠的室内动态流量值，我们充分考虑了移动数据的时空不确

定性和室内拓扑结构的约束，对室内流量的定义及计算模型进行了设计。为提升流

量计算的效率，我们设计了加速相关数据访问的数据结构、减少中间处理数据量的

数据规约方法，以及总体的室内流量计算算法。利用以上流量计算技术，我们对热

点语义位置挖掘算法进行了设计，优先返回更具希望的候选位置，降低热点位置挖

掘中计算具体流量的代价。

• 本文提出并研究了新型的室内用户移动语义挖掘方法及其组合挖掘模型。其中，用

于分析的原始定位序列具有采样稀疏、观测不准确及缺乏语义信息等问题。为解决

上述问题、抽取合理有效的移动语义元组，我们提出了一个三层架构的语义挖掘模

型及对应的不确定数据处理方法。在清洗层，我们基于室内移动性约束对数据清洗

方法进行了设计，以消减原始定位序列中的数据错误。在标注层，我们设计了基于

时空密度的序列分割方法将清洗后的序列划分为多个片段，同时设计了语义匹配方

法对每一片段进行标注以构建对应的语义元组。在补全层，我们设计了基于概率推

10


断的补全方法，利用从历史数据中获得的移动知识来恢复序列中缺失的移动语义。

区域密度计算分析模型

位置流量计算分析模型

定位序列清洗方法

区域密度计算分析模型

位置流量计算分析模型

定位序列清洗方法

语义元组标注方法

语义序列补全方法

语义元组标注方法

语义序列补全方法

时空不确定性分析技术语义不确定性分析技术

密集区域挖掘算法

热点语义位置挖掘算法

移动语义挖掘模型

移动数据索引室内空间模型室内移动模型上下文实体模型移动数据索引室内空间模型室内移动模型上下文实体模型

密度分析挖掘结果流量分析挖掘结果移动语义挖掘结果

静态移动场动态移动场动态移动行为

本文研究的分析挖掘方法

图 1.3 研究方法框架

Figure 1.3 The Architecture of Our Research

1.5 论文组织

本文共分为六章，图 1.4展示了本文的组织结构，其中：

第一章绪论介绍了基于移动数据的智能服务在室内环境下广阔的应用前景，概述了与

其息息相关的室内定位追踪、室内移动数据管理和室内移动数据分析挖掘技术在学界的

发展历程，分析了面向室内场景的不确定移动数据分析挖掘方法的研究动机及挑战，并阐

明了本文的主要研究内容。

第二章研究基础和发展现状分为两部分。第一部分主要围绕室内数据分析挖掘的主

题对相关理论和方法进行了详细介绍，对其下层的室内定位、空间建模及移动对象索引、

数据清洗、数据查询等相关课题进行了归纳总结。第二部分对已有的移动轨迹分析挖掘技

术进行了介绍，对研究内容相关的不确定轨迹建模分析、密度分析挖掘、流量分析挖掘及

语义抽取和轨迹翻译进行了综述，阐明了现有方法在解决本文问题时存在的缺陷和不足。

第三章阐述了室内密度分析挖掘方法。该章首先介绍了适用于对象位置不确定性的

室内密度定义和计算模型，并提出了密集区域挖掘的问题。随后，该章针对时空不确定数

据进行了对象位置的分析，推导得出室内区域密度的上下界，并将距离衰减效应引入到区

域密度的计算模型中。再次，利用对象位置不确定性的分析结果，该章设计了高效算法来

搜索当前的 top-k密集区域。最后，该章采用合成和真实数据集对以上方法进行了全面的

11


第一章绪论

第二章研究基础和发展现状

第六章结论和展望

不确定室内移动数据分析挖掘方法

第三章室内密度分析挖掘方法

第四章室内流量分析挖掘方法

第五章室内移动语义挖掘方法




图 1.4 论文结构组织

Figure 1.4 The Organization of the Thesis

实验评估，结果表明：提出的密集区域挖掘算法是高效、可扩展及有效的。尽管方法只使

用了具有不确定性的快照移动数据，且不对室内对象移动的额外知识进行假设，其挖掘得

到的密集区域仍能与真实情况保持高度一致。

第四章阐述了室内流量分析挖掘方法。该章首先介绍了适用于对象轨迹不确定性的

室内流量定义，并提出了具有最高流量值的热点语义位置挖掘的问题。随后，该章介绍了

用于读取流量计算相关对象的数据结构、用于降低中间数据规模的数据规约方法，和总体

的位置流量计算算法。在以上室内流量计算方法的基础上，该章设计了高效算法来搜索特

定时间范围内的 top-k热点语义位置。最后，该章采用真实和合成数据集对以上方法进行

了全面的实验评估，结果表明：提出的数据规约方法可明显降低中间计算的数据量；提出

的室内热点语义位置挖掘算法是高效、可扩展的，在移动数据具有较高时空不确定性的情

况下，仍能返回与真实情况高度一致的一组热点语义位置。

第五章阐述了室内移动语义挖掘方法。该章根据原始室内定位数据的时空和语义不

确定特点，设计了一个三层模型来抽取用户的移动语义。首先，该章设计了原始数据清洗

方法，可根据室内移动性约束对原始定位数据进行清洗以提升数据质量。其次，该章设计

了一种分割匹配方案对清理后的定位序列进行语义标注，包括基于密度的定位序列分割方

法和针对分割片段的语义匹配方法。再次，该章提出了概率推理方法，借助室内移动性、

室内拓扑和已获得的移动语义的相关知识来恢复丢失的移动语义。最后，该章采用真实和

合成数据集对以上方法进行了全面的实验评估，结果表明：提出的三层模型可高效地对原

始移动数据进行处理，得到与真实情况相符的准确语义元组；构建的移动语义也能有效、

高效地对典型的数据查询进行应答。

第六章对本文研究内容进行了回顾总结，对下一步的工作和研究方向进行了展望。

12

浙江大学博士学位论文第二章研究基础和发展现状

第二章研究基础和发展现状

本章内容分两部分进行组织。2.1节对室内移动数据的相关研究基础进行了介绍，包

括室内定位技术、室内移动数据管理技术和室内移动数据分析挖掘技术。2.2节对与本文

研究问题相关的室外移动轨迹数据分析挖掘的现有工作进行简介，包括不确定移动轨迹的

建模和分析技术、密度分析挖掘技术、流量分析挖掘技术以及语义提取和轨迹翻译技术。

2.1 室内移动数据的相关研究课题

2.1.1 室内定位技术

相关研究主要可分为基于无线信号的定位技术 [35,36]、基于计算机视觉的定位技术 [37]，

以及基于无线信号和/或计算机视觉的混合定位技术 [38]。

基于无线信号的定位技术除早期依赖定位端和移动端的专用硬件设备的无线信号定

位方法 [39–42] 外，采用搭载 Wi-Fi、蓝牙或 RFID等无线芯片的移动普适设备进行三边/多

边测距定位（Trilateration/Multilateration）的方法也得到广泛应用，包括 ToA、AoA、RSSI

测距等。相比于 ToA和 AoA，RSSI具有与传播距离负相关的特性且可被芯片直接测量。

在基于 RSSI测距模型的方法中，根据多个部署锚点的已知位置及锚点与移动端的距离估

计，可求解线性方程组估算移动端位置。由于无线信号传播的波动性，需根据环境对测距

模型（如对数-距离路径衰减模型、对数-正态阴影模型和自由空间路径衰减模型等）的参

数进行校准。为减小动态参数校准的人力开销，TIX算法 [43]利用近邻锚点间的 RSSI值和

距离关系构建线性方程组，对定位空间任一位置的 RSSI值进行预插值估计。相较于线性

插值估计，Lim等人 [44]提出了截断奇异值分解技术（truncated SVD）来构建信号-距离关

系图，而 ARADNE系统 [45]则利用了射线跟踪模型（ray-tracing model）来构建无线地图并

采用模拟退火算法进行参数估计。

RSSI也被广泛用于指纹定位（Fingerprinting）方法 [46]中。其基本原理是，利用 RSSI

在不同物理位置的空间差异性，将特定参考点采集到的各锚点的 RSSI 构建为指纹特征，

并建立位置-指纹关系数据库（radiomap），通过基于特征相似度 [47] 的指纹匹配进行移动

端位置估计。构建 radiomap的过程被称为现场勘测（site survey），即离线训练阶段；指纹

匹配的过程被称为在线服务阶段。该类方法的早期实现为微软研究院的 RADAR系统 [48]，

13

第二章研究基础和发展现状浙江大学博士学位论文

其指纹匹配算法采用确定性策略；Horus系统 [49] 则采用了基于统计学习的策略，将每一

物理位置的指纹建模为高斯模型，并采用最大似然估计进行匹配，其它可用于匹配指纹的

统计模型包括 KNN、SVM、决策树、神经网络等及其组合模型 [50]。指纹定位的一项重大

缺点即需要反复执行离线勘测来更新 radiomap以防止无线信号和室内环境动态变化带来

的训练干扰 [51,52]，一些移动众包思想和机器学习方法被用于增量化的离线勘测。WILL系

统 [53] 根据无线信号穿墙衰减的现象，将无线指纹聚类成不同的虚拟房间并根据用户移动

特点刻画虚拟房间连通性来构建逻辑平面图（logical floorplan），最终实现逻辑平面图（对

应于 radiomap）和物理平面图的自动关联映射。LiFS系统 [54]利用惯性设备，将不同及同

一用户在不同时间、位置收集的指纹进行拼接得到目标区域中两两位置的距离。这些信

息空间的距离和物理空间的欧氏距离可利用Multi-Dimensional Scaling算法进行匹配映射，

帮助 radiomap的自动构建。信息论的方法同样被利用到 radiomap的构建和匹配中，Fang

等人 [55] 利用主成分分析对指纹向量进行特征选择，从而更有效利用与当前移动位置主要

相关的锚点的信息。由于 RSSI深受信号传播的多径、衰减、环境敏感等因素的影响，近

年来一些更为精细、对环境更为敏感的传感信息如 CSI（Channel State Information）开始被

用于指纹表征。例如，FIFS系统 [56] 利用Wi-Fi锚点下多个天线的加权平均 CSI值来构建

指纹，并利用一个带相关滤波器的概率估计算法将移动对象位置映射到一个最相关的 CSI

指纹上。DeepFi系统 [57]提出了一种基于深度学习技术的 CSI指纹定位方法。首先，通过

将各天线和各副载波收集的高维 CSI读数和对应的参考点标签输入到一个带有四个隐层

的深度置信网络中训练，得到模型参数；随后，基于各连接层拟合的参数将原始的高维

CSI特征进行重展开（unrolling）来对参考点位置进行有效表达；最后，在服务阶段通过

data fusion将未知位置的 CSI特征进行转换，并采用基于径向基函数的贝叶斯估计进行位

置的指纹匹配。

无论是测距模型还是指纹匹配模型，都需要专业人员持专用设备对场地进行采样校准

或勘测，代价高昂耗时巨大。在实际场景中，Wi-Fi或蓝牙基础设施主要用于局域网通信，

在采集 RSSI或 CSI度数时精度有限；RFID因其需要能量激活的特点常被用于被动式探

测移动对象。因此，对室内对象的定位跟踪常采用临近定位或称符号定位的方法。形式上，

给定锚点元件 sensor，当移动对象 o进入到 sensor的探测范围内时记录下时间戳 ts，当 o

离开探测范围时记录下时间戳 te，则一条临近定位记录可表达为 ⟨sensor, o, ts, te⟩。临近定

位是一种平台端定位技术，无需移动端安装特定程序，可在无线覆盖范围内静默进行，在

Wi-Fi Sniffing [30,58,60]、蓝牙/RFID跟踪 [12,59]上均有成熟应用。

基于计算机视觉的定位技术按照定位条件的不同，相关工作可分为参照图像特征点

14


的定位 [63–65]、参照标识物的定位 [66,67]和无参照的 SLAM定位 [68,69]等。

参照图像特征点的定位方法，首先需要将目标空间构建为 3D图像特征点云表达的立

体模型，其次需要将当前摄像头捕获的图像帧进行特征提取，最后根据图像帧与 3D 点

云的特征匹配来估算摄像头相对目标空间的朝向位置。在估算摄像头的旋转矩阵时，需

将多张连续的图像帧分别进行匹配，并根据多视图几何原理 [61] 对图片帧间的基础矩阵

（fundamental matrix）进行准确估计 [62] 从而精化连续位置朝向的计算。文献 [63] 提出了一

种采用 ASIFT（affine-SIFT）特征进行图像配准的方法，其特征点错配（mismatches）的

筛除分为两步，首先利用 RANSAC算法进行粗粒度搜索，其次利用相关性约束从候选结

果中选择最适合的投影变换模型（homography model）。为解决图像特征点匹配的效率问

题，一些 3D特征点云的分块剪枝技术被提出。例如，Kohoutek等人 [64] 提出了一种基于

时空-语义标记语言的三维点云组织方法来对视觉模型进行匹配前剪枝；Ruiz-Ruiz等人 [65]

则提出了使用终端的Wi-Fi连接信息对点云进行分区查找的方法。

由于图像特征提取与匹配的鲁棒性问题难以得到解决，一些参照标识物（markers）的

定位方法被提出。Mulloni等人 [66]通过对安放在墙体、海报或固定物体上的二维码标识进

行捕获得到位置估计，其局限性在于二维码需显式安放并精确测量。Tilch等人 [67]使用激

光束（laser beams）在任意空间表面上投射点阵得到参照的物理空间点，通过相机图像中

点阵的平面坐标进行 Structure-from-Motion估计 [61] 获得移动相机的位置，该方法主要受

限于激光束的可用场景。

由于使用离线参照物的方法存在显著缺点，基于 SLAM的无参照定位技术在近年来

得到更多关注。SLAM是指利用图像帧实时重建当前环境的三维结构并同时利用三维结构

推断摄像头朝向位置的过程，在移动终端上使用的 SLAM技术主要是指单目视觉 SLAM。

PTAM [68] 是开源的实时 SLAM系统，其利用三维结构恢复相机朝向的过程仅基于三维重

建中选取的部分关键帧进行，在视觉配准阶段可实现高效的目标函数求解。DTAM [69] 是

基于直接跟踪法、不依赖特征提取和匹配的单目 SLAM框架，其可通过比较像素颜色来

恢复稠密深度图信息并求解相机运动参数，通常在特征缺失、图像模糊等情况下具备更好

的鲁棒性。SLAM作为增强现实技术的重要支撑，其主要场景面向部分对摄像头有特定依

赖的终端应用，其电能消耗、交互方式和计算量不适合纯粹的移动位置服务。

混合定位技术混合定位的一种算法思想是分而治之。例如，Baniukevic等人 [70]利用

蓝牙元件感应范围较小的特点，在Wi-Fi指纹定位的离线阶段对 radiomap进行分区，而蓝

牙临近定位记录可用于在线阶段指示 radiomap的分区转换（partition switching）。为提升分

区转换的识别准度，一种基于权重的预测方法用于从观测蓝牙记录中估计最可能的匹配分

15


区。HIPE（Hybrid Indoor Positioning Engine）[71] 是一种为移动 LBS设计的混合定位方案，

其融合了Wi-Fi信号和惯性传感元件采集的动态移动信息（motion dynamics information）。

该方法将位置变化过程构建为隐马尔可夫模型，隐含状态（即用户位置）与Wi-Fi RSSI观

测状态间的输出概率用一个参数化的WEIBULL函数进行表达，而隐含状态间的转移概率

则依靠动态移动信息进行计算，最优的移动位置序列可依靠 Grid-based Filter或 Viterbi算

法进行求解。E2C2 [72]是一种混合Wi-Fi指纹、陀螺仪读数和摄像头图片的精确移动端定

位框架。该框架在离线阶段对视觉共性场景（Co-Scene）进行以上传感特征的收集，并使

用度量学习方法（metric learning）融合视觉可配准图片对应的 Wi-Fi指纹和陀螺仪读数，

以取代复杂更高的图片相似度直接计算。在在线阶段，融合后的特征可快速定位到视觉共

性场景，并与共性场景聚类出的小部分特征点进行配准得到高精度的相对位置和相机姿

态。Berkeley提出的同时指纹与地图构建（simultaneous fingerprinting and mapping）[73]也是

一种基于多传感数据的室内混合定位方案，其使用专属便携式背包，在空间中同时采集图

片、激光扫描数据、RSSI和惯性读数，并采用粒子滤波算法恢复移动过程中的二维/三维

路径、三维特征点云、二维平面图和多模态指纹数据库，以支持移动设备的在线定位。

本小节概述上述工作中，完全或部分依赖计算机视觉的方法对定位设备和环境有较

高的条件要求，不具有普遍适用的优点；使用无线基础设施的定位方法，其普及度和应用

门槛更低，可广泛用于获取海量的移动位置数据。但是，无线定位方法受限于信号传播和

室内环境的波动性，在精度上难以保障。因此，目前可广泛获取的无线定位移动数据，具

有天然的不确定性，阻碍了分析挖掘问题的有效求解。这一现状也催生了本文对不确定室

内移动数据建模分析的研究。

2.1.2 室内移动数据管理技术

室内空间建模及数据索引已有的室内空间模型大致可分为基于对象特征的空间模

型、基于几何坐标的空间模型和基于符号的空间模型。其中，侧重描述实

体对象的属性、操作及关联。例如，CityGML/IndoorGML [74] 将空间描述为物理分区、墙

体、可活动元素（门窗）、楼层等部分的集合，通过 UML类图表达各集合对象的语义信

息及拓扑关系。这类模型拥有良好扩展性，但缺少对几何关系的描述。通

常将室内平面图转化为可计算的栅格模型或边界矢量模型。例如，棱柱模型 [75] 将室内空

间划分为棱柱集合，使用多边形棱柱压缩技术将其降至二维，利用二维 DBMS实现模型

的构建。几何空间模型能够支持位置、方向和距离相关的计算，但缺乏对空间实体的语

义特征表达。（symbolic model）是目前流行的室内空间建模方法，其能有

16


效捕捉到与空间实体关联的语义信息并保留基本的几何及拓扑关系。例如，三维几何网

络模型 [76] 将空间实体在水平和垂直方向上的连通关系分别进行考虑，通过 3D结点关系

（Node-Relation-Structure）来描述完整的空间结构，其中室内实体对象为三维结点、连通

性由边进行描述。三维测量-拓扑模型 [77] 不仅描述空间实体的连通关系，同时使用测量

方式记录实体的三维形状，以帮助室内导航选择距离最优路线完成规划和推荐。考虑到

查询请求的语义性，一种基于格点划分（lattice-based）的语义位置模型 [78] 在保留实体对

象距离信息的同时维护了实体语义，以支持语义空间实体的近邻查询。为跟踪携带 RFID

标签的室内移动对象，Jensen等人 [79] 仅针对室内空间的房间和门构建了一种简洁的可达

图（accessibility graph）模型，并在此基础上根据 RFID定位机制构建部署图（deployment

graph）模型来表达对象在不同空间单元（cell）间的移动状态。为支持高效的室内距离查

询，Lu等人 [80] 在可达图模型的基础上提出了距离敏感模型（distance-aware model）用于

计算空间任意两点的室内距离。

为提升计算和存储的效率，一些研究针对室内空间中静态数据和移动对象的特点设计

了不同的索引。Jensen等人 [81] 提出了两种类 R-tree的结构 RTR-tree（Reader-Time R-tree）

和 TP2R-tree（Time Parameter Point R-tree），以支持 RFID符号定位下的历史轨迹范围查询

——条件可包括时间点/段、RFID Reader或其连续序列。DLT-Index（Dense Location Time

Index）[17]对移动对象的 RFID驻留时长记录进行索引，用于支持对室内密集区域的快速查

找。Yang等人 [82,83]根据 RFID符号定位的特点将室内移动对象划分入不同的状态子空间，

并在此基础上设计了基于哈希的索引来支持连续范围监控 [82] 或概率阈值 kNN 查询 [83]。

以上索引主要面向于以符号定位记录进行表达的室内移动数据，缺乏对几何定位记录/轨

迹的处理能力。AIM（Adaptive cell-based Index for Moving objects）[84] 使用双层结构——

Moving Objects Cube和 Moving Objects Trace，分别索引实时和历史区间两种时态的室内

移动对象数据。其中，Cube结构基于室内分区的连通性建立，Trace结构根据移动对象主

键管理对象在历史区间内的轨迹数据。AIM可有效支持全时态移动对象查询，但未考虑

分区的几何关系无法支持室内距离相关查询。DPT（Door-2-Partition Table）[80]采用室内门

距离矩阵表达室内分区的距离关系，以门为主键对通过其进入某个分区的移动对象进行

哈希索引，可支持室内距离敏感查询。DPT需要在离线阶段计算全局的门距离矩阵，不能

适应室内空间布局的变化。针对动态变化的室内拓扑，Xie等人 [85]设计了室内空间和移动

对象的复合索引结构 indR-tree。indR-tree首先基于室内分区的近邻性建立 R-tree，再以室

内分区为主键对移动对象进行哈希索引。该索引支持对室内拓扑及移动对象的动态更新。

室内移动数据清洗根据室内移动数据的格式，相关工作可分为符号定位数据清洗和

17


几何定位数据清洗。在符号定位中，由于锚点的无线感应范围的重叠，移动对象在同一时

刻可能存在多个锚点的位置记录，这一类错误被称为假阳性；相反，由于无线感应范围偶

发性失效，移动对象的位置记录可能在某一时间段内存在缺失，即假阴性。符号定位数据

清洗主要针对以上两类数据错误分别进行消歧和复原。通过有效利用在感应范围上重叠

的 RFID记录和室内空间、RFID元件部署的先验知识，Chen等人 [86]设计了一种基于贝叶

斯推断的方法来恢复以向量形式表达的 RFID观测序列，该方法的似然函数由一个状态检

测模型（state detection model）进行捕获。将 RFID跟踪对象的每个定位结果用与地图位

置相关的概率密度函数进行建模，Fazzinga等人 [87,88] 设计了基于 Grid-based Filter的概率

数据清洗算法，利用多种与地图或移动特性相关的约束条件对定位结果序列进行确定性

修正。类似地，根据 RFID元件在空间部署时建立的空间、时间和拓扑性约束，Baba等人

分别设计了距离敏感的图模型 [89]和概率图模型 [90]来对 RFID跟踪中的假阳性和假阴性进

行清洗处理。由于约束条件过度依赖空间部署和领域知识，作者重新提出了基于学习的方

法 [91] 来发现和同时修正假阳性和假阴性。其中，多变量隐马尔可夫模型用来构建对象位

置和 RFID记录间的相关信息，其隐含变量的状态空间设计借助了 RFID元件部署的少量

先验知识。将观测 RFID序列表达为多变量的二进制向量后，Viterbi算法可用于从训练的

隐马尔科夫模型中找出最优的隐含状态序列。

几何定位清洗的目标是减少因随机误差或错误（楼层错值或离群点）带来的观测轨迹

和原始轨迹的数值差异。经典的滤波算法如贝叶斯滤波 [92]或卡尔曼滤波 [93]被用于修正和

精化连续定位结果，而目前结合室内拓扑或移动特性进行清洗的方法还非常少见。利用室

内移动轨迹应与室内路网结构相贴合的前提假设，Prentow等人 [94] 提出了一种 Bootstrap-

ping的位置匹配算法来修正几何定位轨迹。该方法首先根据一组典型的运动轨迹（motion

trajectories）来构建室内路网结构，并基于路网结构将待清洗轨迹划分为各结点间的子轨

迹，分别进行均值统计以实现采样精化。

室内移动数据查询相关技术根据查询目标可划分为位置相关的对象查询、室内路径

查询、距离敏感查询、时空范围查询、连接查询、轨迹相似度查询等。

主要包括空间实体对象查询 [95]、室内 POI查询 [96]、室内活动事

件查询 [97] 等。根据不同的选择标准求解从起始位置到目的位置的最优行走

路径，如基于路径长度的查询 [98]、基于用户偏好的查询 [99]、基于上下文感知的查询 [100]

等。典型的如空间范围查询 [80,82,85,102] 和 k 近邻查询 [80,83,85]。根据查询时间

条件又可以分为快照查询（snapshot query）[80,83,85]和连续查询（continuous query）[82,102]。由

于室内距离定义不同于欧氏距离或路网距离，室内距离敏感的查询需扩展室内空间模型，

18


文献 [80] 基于带距离映射信息的扩展图模型，生成全局门距离矩阵，支持与查询点距离相

关的空间范围及 k近邻查询。文献 [85] 则考虑到移动对象可能所处的不确定范围，分别计

算对象到查询点的最短和最长距离，通过最短距离剪枝等方法筛除不满足查询条件的移

动对象。同时具备时间和空间条件的限制，其中空间条件也可用符号范围进

行表达，如单元空间 ID [101]或连续 RFID reader序列 [81]。可用于查找在时间和/或

空间属性上相干的数据对象。文献 [103]研究了一种距离敏感的连接查询用于找出在室内距

离满足某一条件（如小于某一距离阈值或 k-th最邻近距离）的移动对象对。连接查询的优

化可概括为四个步骤：找到相关室内分区、利用门距离剪枝分区、利用室内距离上下界剪

枝移动对象、计算移动对象的室内距离进行筛选。文献 [104]对室内历史轨迹数据的概率自

连接查询进行了研究，其返回在某一时间点或范围内的 k 个连续时刻内位于同一语义范

围（如某个办公室）的概率大于阈值的所有移动对象对。算法采用基于哈希的两阶段连接

技术，首先查询一维时间索引 A1R-tree获取候选集，随后建立语义范围到定位设备范围及

室内分区的映射表，通过哈希划分及连接两个步骤得到最终结果。用于查

找与特定轨迹在度量上相似的轨迹对象。例如，文献 [105]提出了一种同时考虑空间和语义

属性的室内轨迹相似度度量方法，其中空间和语义相似度分别基于室内距离临界点和层

次语义模式进行计算。

此外，根据被查询数据和查询条件的不同特点，表2.1给出了一种非完全的查询分类 [7]。

表 2.1 室内移动数据查询分类

Table 2.1 The Categorization of Queries on Indoor Mobility Data

静态定位记录/轨迹在线-移动对象历史-移动对象

静态查询空间范围 [80]

k近邻 [80]

空间范围 [85]

k近邻 [83,85]

连续范围监控 [82]

时空范围 [81]

拓扑关联 [81]

动态查询连续范围监控 [102] 距离敏感连接 [103] 时空连接 [104]

本小节概述上述的移动数据管理技术提供了进行上层分析挖掘的研究基础，但考虑

到移动数据固有的不确定特点，相应的方法依然存在很大不足：一方面，现有的室内空间

建模、数据对象索引及查询处理方法均面向特定的问题和数据模型，带有较强的前提假设

且很少考虑到数据本身的高不确定性对分析挖掘问题的影响。另一方面，目前流行的室内

移动数据清洗技术主要专注于符号定位数据的消歧和复原，缺少通用的方法和框架对更

为常见的室内几何定位序列进行不确定分析和错误识别与恢复。这些技术和解决方案的

缺点和缺失，给本文的研究带来了重大的挑战和机遇。

19


2.1.3 室内移动数据分析挖掘技术

室内移动模式挖掘面向 RFID跟踪中产生的信号强度数据，Liu等人 [8]提出了一种频

繁轨迹模式（frequent trajectory pattern）的识别挖掘方法。在预处理过程中，利用移动对

象经过 RFID reader时会产生信号差异的特点，该方法首先将原始的信号强度序列处理为

一种 0-1表达的标签信号序列。在模式挖掘过程中，该方法的训练阶段负责收集离线标签

信号序列并从中挖掘出频繁模式；监控阶段负责在线匹配找出当前对象的相似频繁模式。

为实现对于频繁模式的容错挖掘，算法对标签信号序列进行冗余去除和边界检测，再通过

二阶段的对象频繁位置查找-频繁轨迹段查找来得到最终的 frequent-n segments。与上述方

法不同，Radaelli等人 [11]考虑从 RFID符号定位记录中识别出一种以定位元件序列表示的

动作模式，并找出大于给定支持度的频繁项。该方法根据传统的序列模式挖掘算法找出初

始候选，并利用室内拓扑结构来对候选集进行剪枝。

Yun 等人 [9] 针对移动商务环境下用户产生的多源数据，提出了一种新型的移动序列

模式（mobile sequential pattern）挖掘方法来更好分析移动用户的购买行为。如图2.1(a)所

示，移动序列模式的挖掘模型同时考虑了购买事务的关联规则、购买的序列模式和用户的

路径遍历模式的相关性。挖掘过程分为四个步骤：1)从购买事务中找出高支持度的事务；

2)转换得到高支持度事务最长序列；3)利用移动序列模式家族决定高支持度序列模式；4)

从高支持度序列模式中推导得到移动序列关联规则。该方法利用了模式家族中的路径遍

历模式信息，提出了一种 path trimming技术来提升移动序列模式挖掘的效率，但其主要

关注的仍然是购买事务数据中发现的单纯序列模式。YUN AND CHEN: MINING MOBILE SEQUENTIAL PATTERNS IN A MOBILE COMMERCE ENVIRONMENT 279

extracting information from the mobile transaction sequences.However, as these mobile commerce services are becoming in-creasingly popular nowadays, it is imperative to devise efficientalgorithms for deriving customer buying behavior to improvethe quality of these services. As a result, the design and devel-opment of efficient mining algorithms for knowledge discoveryin an MC environment while fully exploring the intrinsic rela-tionship between moving and purchase patterns is taken as theobjective of this paper. Conducting the mining on the movingand purchase patterns of customers in an MC environment iscalled the mining of mobile sequential patterns (i.e., large se-quential patterns) in this paper. In addition, a novel knowledge,called mobile sequential rules, can be derived from the mobilesequential patterns for the measurement of customer purchasebehavior association.

Example 1.2: For the example shown in Fig. 1, the customerhas one kind of moving pattern ABC and two kinds of purchas-ing patterns {〈A; t1〉 and 〈C; t9〉} where itemset t1 = {i1} anditemset t9 = {i2, i3}. If there are sufficient customers havingthe same patterns, the mobile sequential pattern is an implica-tion of the form 〈{〈A; t1〉, 〈C; t9〉}: ABC〉, which means thatmost customers usually purchase itemset t1 in cell A and thenpurchase itemset t9 in cell C with the specific path ABC. In ad-dition, the mobile sequential rule is an implication of the form〈{〈A; t1〉 =⇒ 〈C; t9〉: ABC〉 which means that customers pur-chasing itemset t1 in cell A are usually moving along path ABCto cell C for purchasing itemset t9. With the mobile sequentialrule, when a customer purchases itemset t1 in cell A, the cellularphone company could send the coupons of products (i.e., itemi2 and item i3) in itemset t9 to boost the sales through the basestations in the cells A, B, or C in accordance with their broad-casting schedules. More description about mobile commerce isavailable in [1].

The details of related works are given in Section II-A. De-spite some efforts having been elaborated upon examining theuser behavior, none of the prior work, to the best of our knowl-edge, has taken both moving and purchase patterns together intoconsideration to model the customer behavior in a mobile com-merce environment. This can in part be explained by the factthat the cost is expensive to track and log detailed movements ofmobile users today.1 However, it is expected that such cost willdecrease soon and the cellular phone will become the popularinterface of the interconnection networks for accessing variousservices [57], thus justifying the practicality and necessity ofconducting mobile sequential pattern mining. It is understoodthat the records of cells visited and items purchased, requiredfor mining mobile sequential patterns, may belong to differentcompanies, and for these companies, they may have differentconsiderations on using their data to improve the mobile com-merce services provided. It should go without saying that suchdata analysis should be done solely for the purposes of systemand service improvements and should be conducted in a contin-gent way that neither any law is violated nor is the privacy ofcustomers intruded. Nevertheless, with the legality and privacy

1The cost to locate a mobile user is estimated to be about US $0.01 toUS $0.05 each time according to a major mobile phone service provider.

Fig. 2. Notion of mining mobile sequential patterns.

issues considered, the knowledge discovery from the MC datais believed to be an increasingly challenging technical prob-lem which is of great practical importance for the evolving MCtechniques.

Consequently, to better reflect the customer buying behav-ior in the MC environment, we propose an innovative miningmodel that takes both the moving patterns and purchase patternsinto consideration. In essence, the mining of mobile sequentialpatterns aggregates the concepts on mining association rules,mining path traversal patterns, and mining sequential patterns,and thus requires a combined use of corresponding techniques.The notion of mining mobile sequential patterns is shown inFig. 2, where the relationship among these mining capabili-ties is depicted. How to strike a compromise among the useof various knowledge to solve the mining on mobile sequentialpatterns is a challenging issue. As an effort to solve this prob-lem, we devise a procedure, namely mobile sequential patternsMSPs), to conduct the mining of mobile sequential patterns.With the details described in the Section II-C, the procedureMSP splits the problem of mining mobile sequential patternsinto four phases, namely: 1) the large-transaction generationphase; 2) the large-transaction transformation phase; 3) thesequential-pattern generation phase; and 4) the sequential-rulegeneration phase.

In this paper, the performance bottleneck is in phase 3), i.e.,the sequential-pattern generation phase. By having differentpriorities on the factors involving large itemsets, traversalpaths and orders of purchases, we devise three algorithms(algorithm TJLS, algorithm TJPT, and algorithm TJPF) todetermine mobile sequential patterns. First, algorithm TJLS isdevised in light of the concept of itemset joining in associationrules mining [6]. However, as will be seen later, without fullyutilizing the traversal paths of mobile sequential patterns, algo-rithm TJLS tends to count the supports of a lot of out-of-pathsequential patterns (i.e., the sequential patterns which do notstay within a path), thus degrading the performance. Next,to eliminate the out-of-path sequential patterns, algorithmTJPT is devised by taking both the concepts of association

Authorized licensed use limited to: Amirkabir University of Technology Trial User. Downloaded on January 28, 2009 at 11:58 from IEEE Xplore. Restrictions apply.

7:10 S.-Y. Teng et al.

Fig. 7. Overview of PTkISP framework.

3 MINING PTKISP

The PTkISP framework is devised to effectively resolve the issue of location uncertainty in indoorreading data, and also to efficiently discover top-k ISPs. The flowchart of PTkISP framework isshown in Figure 7. First of all, stop-by events of all moving objects are recognized from an OTT

and object stop-by trajectories are generated. In addition, we discover frequent device patterns,instead of mining ROI patterns. Finally, frequent device patterns are transformed to probabilisticROI patterns through a proposed probabilistic model, and top-k ISPs are retrieved.

3.1 Object Traversal Event Filtering

To speed up our mining process, we define two kinds of object traversal events generated from anOTT and filter out traversal events without stop-by conditions.

Definition 1 (Object Traversal Inside-Event). Suppose that oi is detected by devicedj starting fromtime ts j , anddj continues sensing the appearance of oi until time te j . We define an Object TraversalInside-Event en of oi , which is denoted by a 2-tuple (dj , P (en )). In addition, P (en ) denotes the dwelltime [ts j , te j ] inside dj . In this article, we call the Object Traversal Inside-Event as I-event for short.

Definition 2 (Object Traversal Outside-Event). Suppose that oi is detected by device dj startingfrom time ts j , and dj continues sensing the appearance of oi until time te j . Let oi keep being de-tected by device dk , starting from time tsk and ending with tek . We define an Object TraversalOutside-Event en of oi , which is denoted by a 2-tuple ((dj ,dk ), P (en )). Here, P (en ) denotes thetime interval [te j , tsk ] from dj to dk . In this article, we call the Object Traversal Outside-Event asO-event for short.

ACM Transactions on Spatial Algorithms and Systems, Vol. 3, No. 2, Article 7. Publication date: August 2017.

(a)移动序列模式挖掘 [9] (b)室内停留模式挖掘 [10]

图 2.1 室内移动模式挖掘示例

Figure 2.1 Examples of Indoor Mobility Pattern Mining

Delafontaine等人 [12]研究了从蓝牙跟踪序列中发现移动用户的位置访问模式（visiting

20


pattern）的方法。该方法首先将跟踪数据表达为对应的蓝牙结点序列，随后采用生物信息

学中提出的序列对齐（sequence alignment）技术来计算结点序列的相似程度，最后通过相

似序列聚类或与预定义模式匹配两种方法，来发现移动用户的位置访问事件及访问模式。

其中，蓝牙结点序列的对齐采用三个过程循序完成，包括基于方阵的 pairwise对齐过程、

基于邻接树的邻接对齐过程和基于全局对齐算法的多重对齐过程。文献 [23] 给出了一种利

用Wi-Fi定位数据对用户在商店的位置访问模式进行挖掘和可视的系统。

Teng 等人 [10] 提出了一种从不确定 RFID 符号定位序列中识别和发现室内停留模式

（ISP, Indoor Stop-by Pattern）的方法。针对 RFID跟踪中因 i)元件覆盖范围和室内区域不

相交和 ii)观测时间存在间隔两因素导致的数据不确定性，该方法首先设计了一种基于概

率的不确定停留模型，可通过当前时刻的前、后观测读数估算移动对象停留区域的可能

性。在不确定停留模型的基础上，一种概率 top-k ISP挖掘方法被提出，其中每个 ISP被定

义为 ROI（Region of Interest）的序列，而 ISP的频度则定义为所有不确定 RFID轨迹下的

期望值。如图2.1(b)所示，为解决上述挖掘问题，方法首先区分不同的移动对象遍历事件

（object traversal event）以过滤不满足停留模式的生成轨迹，随后利用 RFID部署图模型的

约束信息快速挖掘出频繁的 RFID device序列，最后根据概率映射模型将 device序列转换

为 ROI序列并计算返回概率的 top-k ISPs。

室内路线/区域发现 Chen等人 [13] 提出了使用无线信号随机序列抽取动态室内环境中

语义位置的方法。该方法提取每个对象的信号-位置对 ⟨RSS, loc⟩，并将其序列建模为隐马

尔可夫过程，观测为信号集合RSS，隐含状态为位置 loc。在离线过程，通过强度值排序和

正规化信号强度向量等手段获得用于训练的信号-位置对序列，进而拟合得到信号空间和

位置空间的映射关系。在应用阶段，可利用观测信号序列求解相应的最优语义位置序列。

Prentow等人 [14]提出了从室内定位轨迹中检测最常用路径的方法 InTraRoute，处理分

为三个阶段：1)直接路线提取；2)路线聚类；3)簇内共性路径识别。在直接路线提取阶

段，通过 loop拆解、停留时间段参照、路径延展因子估算的处理，InTraRoute将一个位置

对间带有目的行走的直接路线提取出来。在路线聚类阶段，InTraRoute通过对位置对的直

接路线集进行聚类，找出具有相似路径的轨迹集合。其中，直接路线间的相似度通过一种

基于行走时间的模型进行度量。在簇内共性路线识别阶段，InTraRoute为每个簇维护一个

转移图（transition graph），结点为位置、边为转移关系。利用转移图维护的簇内路线的计

数信息，最常用路径可通过 Dijkstra算法进行查找。文献 [30]介绍了使用Wi-Fi定位轨迹分

析和挖掘商场用户的典型路径的方法和原型系统。

Jin等人 [15]提出了从室内轨迹中查找热点位置的方法。在预处理阶段，该方法通过筛

21


除无意义位置得到室内停留轨迹。在热点位置查找阶段，算法考虑了用户对位置的兴趣及

用户与位置间的相互强化关系（mutual reinforcement relationship）。其中，前者通过停留

时间和历史停留地点等因素进行估计，后者通过用户活跃度和位置热度构建。在二者基础

上，该方法构建用户-位置矩阵并通过多重矩阵迭代计算每一候选位置的热度并进行排序。

该方法未考虑轨迹中位置的不确定性对热点位置挖掘的影响。

在移动对象的符号跟踪中，根据移动对象路径的结构可将室内空间区分为：(1)受限

路径空间（constrainted path space），如行李传送带；(2)半受限路径空间（semi-constrainted

path space），如住房。Hussein 等人 [16] 考虑了受限路径空间中瓶颈点（Bottleneck Points，

BP）推理技术。该技术首先基于扩展的 property pseudograph空间模型给出了静态的 BP推

理方法。其后，该技术在对非完整的对象跟踪记录进行概率推断补齐的基础上，进一步提

出了动态 BP推理方法，并设计了一种动态 BP监控的查询处理算法。

面向于半受限路径空间，Ahmed等人 [17] 提出了从符号定位数据中查找密集区域的方

法。在问题设定中，RFID锚点被安装在每个室内区域（房间）的出入口；室内区域的密

度被定义为一段时间内出现的对象数量与该区域预定义容量（capacity）的比值；密集区

域被定义为密度大于某一阈值 k的区域。为实现高效的密集区域查找，一种树状的 Dense

Location Time索引被提出，其索引对象为某室内区域的进入-离开时间段，而非相应的单

点符号定位记录。同时，索引的非叶结点上维护了 aggregate值，各中间层上也保留了结点

链向关系。基于这一索引，该方法通过时间段覆盖关系提出了剪枝策略来加速查找密集区

域。与本文第三章提出的室内密集区域挖掘方法相比，Ahmed等人的方法主要针对符号定

位数据，且严格要求锚点部署在自然划分的室内分区的出入口位置；其次，该方法定义的

区域密度采用历史时间间隔内的数据进行估算，不能支持利用快照数据进行的在线查找；

此外，该方法未考虑定位数据不确定性对密度计算的影响。

Lu 等人 [18] 提出了利用 RFID 跟踪数据挖掘频繁被访问地点（frequently visited POI）

的方法。其中，室内地点在特定时间范围内对象的通过数量——即流量值，被作为问题的

评判标准。由于 RFID跟踪的间隔会导致对象位置的不确定性，该方法根据判别的对象跟

踪状态（active或 inactive），分别考虑了移动对象在 snapshot和 interval两种情况下的不

确定区域，并通过不确定区域与室内地点的几何关系估算流量的贡献值。该方法随后提出

了 snapshot/interval top-k indoor POIs查询，并设计了相应的索引和 join-based算法进行问

题求解。与本文第四章提出的室内流量分析挖掘方法相比，该方法使用了粗粒度但确定性

的符号定位数据而非概率性表达的位置样本序列，因此在流量计算时不需要构建规模庞

大的可能路径集合；同时，根据目标数据不一样的特点，该方法的流量估算是从移动对象

22


不确定区域和室内地点的几何相交面积入手，而本文的方法则考虑了定位序列到空间区

域流量的概率映射关系。

室内移动预测 Prasad等人 [19]首先提出了针对室内无线环境的移动预测框架。该框架

将Wi-Fi AP序列表达为观测序列，并基于二阶隐马尔可夫模型，利用用户的当前和前一

位置对下一位置进行预测，初始状态概率和转移概率矩阵则通过历史移动位置序列进行

估算。不同于采用粗粒度的 AP序列作为训练数据，Chon等人 [20]提出了一种面向细粒度、

连续的室内移动轨迹数据的时态行为（temporal behavior）预测方法。其中，细粒度的移动

轨迹数据采用一个高精度、高频度的Wi-Fi指纹定位系统进行收集，而时态行为则定义为：

移动用户在某一特定地点滞留时长和去往下一地点的时间点。为解决这一时态行为预测问

题，位置相关和位置非相关的马尔科夫模型分别被提出。其中，位置相关模型同时考虑了

训练数据的空间和时态特征，而位置非相关模型则仅考虑后者。在训练阶段，该方法分别

采用时间辅助模式和返回概率辅助模式来抽取位置及达到时间特征和位置滞留时间特征。

当高阶马尔科夫模型无法给出预测结果情况下，该方法的回退机制（fallback mechanism）

利用低阶模型进行结果补偿。

Indoor-ALPS [21]是一个自适应的室内位置预测框架，可用于在密集室内位置拓扑下对

移动用户的时空行为进行预测。该框架可完成三项子任务，即位置离开时间预测（transition

time prediction）、下一位置预测（prediction of next location）和两者结合的时空预测。提

取特征的集合包括当前位置、到达时间、滞留时间、当前时间属性、历史重要位置、历史

重要位置滞留时间、到达当前位置所需时长等等。预测采用了集成学习机制，四个子回归

模型分别由决策树、最近邻、支持向量机和 Gradient Boost进行构建，每个子模型的特征

分别从上述特征集合中采样选取。不同于上述采用原始移动数据的时空特征进行移动预

测的方法，Dash等人 [22]提出了基于移动行为模式的预测方法来推测用户的下一位置。该

方法首先通过时空阈值抽取的方法从移动用户的通话数据（Call Detail Records, CDR）中

识别用户的语义位置时序模式，并在此基础上构建了动态贝叶斯网络（Dynamic Bayesian

Network, DBN）来对下一语义位置进行预测。

本小节概述上述利用室内移动数据进行模式挖掘、热点资源发现和移动行为预测的

方法，均面向特定的数据模型和问题定义，和本文研究的静态/动态移动场、动态移动行

为分析挖掘问题存在很大差异。此外，仅有极少数工作在问题模型中考虑了采样或观测不

确定性带来的干扰，其解决方案中使用了特殊设计的数据预处理技术来应对这一问题，并

不具有良好的扩展性。相比之下，本文研究内容中加入了对室内移动数据的时空和语义不

确定性的抽象建模分析，能很好地扩展到普通室内环境中采集的移动数据。

23


2.2 室外移动数据分析挖掘的相关研究课题

相较于近年来快速发展的、针对室内移动数据的研究，学术界在面向室外场景（如自

由移动空间、路网空间、障碍物空间）的移动数据研究上已建立了更为成熟和完善的理论

和方法体系。围绕与本文相关的移动数据分析挖掘的主题，本节将首先对近年来具有代表

性和影响力的不确定轨迹数据建模和计算分析方法进行回顾，随后，本节将分别对相关的

密度分析挖掘、流量分析挖掘和语义提取和轨迹翻译的已有工作进行介绍和对比。

2.2.1 不确定轨迹建模和分析技术

不确定轨迹的管理分析一直是热门的研究话题，以下仅对其重要成果进行简要阐述。

由于 GPS轨迹同样可能面临采样点稀疏（即 sampling error）和定位精度低（即 mea-

surement error）的影响，故而对 GPS轨迹不确定性进行有效建模可降低在查询或分析问题

中因数据质量带来的负面影响。Pfoser和 Jensen [106] 最先提出对轨迹中位置不确定性进行

建模的准则，将对象潜在位置表示为以观测点为中心的一个特定空间范围。此后，一些不

确定轨迹模型先后被提出，如图2.2所示：串珠（beads）模型 [107]将平面上的不确定位置表

示为以前后采样位置为焦点的椭圆范围；圆柱（cylinder）模型 [108]将其表示为前后采样位

置间的缓冲线段窄带；方格（grid）模型 [109]将其表示为格化空间中的一组相关单元；路网

受限模型 [110] 则将其表示为前后采样位置投影到路网图后一组边上的覆盖线段。文献 [111]

认为上述模型具有明显缺陷，如：假定观测位置必为不确定范围中心、使用固定的几何形

状和密度概率函数对不确定范围进行表达、以及需要额外约束条件如最大速度 [106,107]、路

网结构 [110] 等。为此，作者提出了基于演化密度（evolving-density）的模型，将不确定轨

迹表达为时间独立的高斯分布，并分别设计了不同的估计量模型（estimator）来推断特定

观测时刻高斯分布的中心位置和标准差。 3

(a) beads (d) network-constrained(b) cylinder (c) grid

x

y

t

uncertainty range

certain trajectory

uncertain trajectory

bead

ellipse

road network

Fig. 2: Graphical comparison of uncertain trajectory models.

trajectory as a sequence of such ellipses in 2D or beads in3D.

The cylinder model [34], [33], [12] ‘buffers’ a linesegment—which models an object’s linear movement be-tween two sampled positions—using a user-specified uncer-tainty threshold. Thus, this model represents an uncertaintrajectory as a sequence of such buffered line segments.In 3D x-y-t space, the uncertainty trajectory is illustratedas a sequence of sheared cylindrical bodies, shown asFig. 2(b). A salient feature of this model is to offer well-established query semantics that define a set of uncertainmovements of an object with respect to the cylindricaluncertainty representation of trajectory (e.g., objects defi-nitely/sometimes/always reside within a given query space).

The grid model [26], [38] first partitions a given data spaceinto a set of disjoint cells, and then represents an uncertaintrajectory as a sequence of such cells, each of which coverssome possible locations of the object in spatial or spa-tiotemporal space (Fig. 2(c)). Whilst this model is simpleand facilitates efficient uncertain trajectory computing [38],finding an appropriate cell size is a difficult problem [17],since the size directly affects both the modeling power forcapturing the uncertainty of trajectory and the efficiency oftrajectory computing.

The network-constrained model [11], [10], [20], [39]maps a coordinate-based location in a raw trajectory to alinear range on a graph that models a road network. Therange captures the possible locations of an object on thegraph (map). Such a linear range is typically representedby a line segment, or a sequence of line segments that covermultiple edges in the graph (e.g., when a raw position isaround a junction in a road network). Thus, the shape ofan uncertain trajectory becomes a subgraph in x-y space(shown as the dark parts of the road network in Fig. 2(d))or a set of 2D planes in x-y-t space. As shown, this modelmakes the uncertainty regions of a trajectory relatively tight,meaning that the degree of trajectory uncertainty can bereduced by using the additional information provided bynetworks (maps).

2.1 Pitfalls of the Uncertainty ModelsDespite the various modeling capabilities of the existinguncertain trajectory models, they commonly neglect several

important aspects in modeling and managing uncertaintrajectories. We briefly discuss about their drawbacks:

First, the uncertain trajectory models generally regard alocation measured from positioning technology as a precise,actual location of an object, while modeling an uncertaintyrange based on the reported position as center. Such araw position, however, typically bears some measurementerror [22], [27], thus the position may not be the exactlocation where the objet actually resided. This renders theuncertainty range center-shifted from the correspondingactual position that is generally unobservable. When thedegree of measurement error is large, this ‘shift effect’also becomes significant, which can cause false dismissalsor false positives in uncertainty-aware query processing.Unfortunately, none of the uncertain trajectory models takesthis into account.

Second, some of the uncertain trajectory models assumethat the degree of uncertainty is constant regardless of thechange of location or time. This assumption, however, maynot always hold in reality. For example, GPS accuracygenerally increases or decreases according to the presenceof obstacles (e.g., tunnels and tall buildings) and the avail-ability of a sufficient number of satellites for positioning.The accuracy of location estimation with 802.11 is alsosubjective to signal strengths available [22], which variesas the object moves over time. Therefore, the constantrange used in the current uncertain trajectory models isnot effective to capture the dynamic property of locationuncertainty.

Third, the uncertain trajectory models bound the area oflocation uncertainty, typically using a circle with a user-specified radius. This approach works well with uniformdistributions, however, positioning errors in practice rarelyobey uniform distributions [22], [35]. In general, non-uniform distributions are unbounded. Therefore, it is in-evitable to miss out some information when data processingis performed over any bounded uncertainty areas on suchunbounded distributions.

Forth, most of the models assume that the probabilitydensity function (PDF) of a location is given. It is, however,a non-trivial problem to compute the parameters of aPDF (e.g., mean and standard deviation for a Gaussiandistribution), in particular when each location of a trajectoryrequires different parameter values for PDF.

图 2.2 不确定轨迹建模示例 [111]

Figure 2.2 Example of Uncertain Trajectory Modeling

采用不确定的位置或轨迹数据进行查询或分析具有极大挑战性。Cheng [113,114] 等人在

较早就明确了针对不确定移动对象和轨迹进行概率查询的重要意义，并分别设计了高效的

24


概率范围查询 [113]和概率 kNN查询 [114]机制。利用方格对空间进行划分，文献 [109]通过对

移动对象的位置分布和速度分布进行建模来推断对象在未来的可能位置，并基于此对不

确定对象的概率范围查询和概率 kNN查询进行了研究。文献 [110] 和文献 [112] 分别研究了

路网空间和高维空间中不确定数据的概率范围查询问题。在演化密度模型上，文献 [111]提

出了对应的不确定轨迹概率范围查询方法，通过在 A1R-tree和哈希表上建立索引，方法在

过滤阶段采用时空剪枝找出候选数据，在精化阶段通过分析不确定范围的密度概率搜索

出现概率（presence probability）大于阈值的不确定轨迹。基于改进的串珠珠型，文献 [107]

提出了多种时空不确定性查询谓词（spatio-temporal uncertainty predicates）来描述轨迹和

空间的拓扑关系，如 possibly_meet_at、definitely_cross等，在此基础上作者定义了一些可

用类 SQL语言进行表述的不确定时空拓扑查询。

为实现对自由移动对象的路径推断，Wei等人 [115] 通过交叉引用相似路线上的其它轨

迹来搜索路径并产生对应的概率化不确定轨迹。Zheng等人 [116] 通过对路网轨迹的不确定

部分进行补全，来规划与查询位置序列相关的最热路线。考虑到空间锚点位置和轨迹的空

间关系，Su等人 [117]设计了基于锚点的轨迹校准（anchor-based calibration）方法，其待处

理轨迹与历史轨迹的路径推断中的一组固定锚点进行对齐，以帮助相关的轨迹相似度计

算等任务。Xue等人 [118]在稀疏采样轨迹的设定下研究了目的地预测的问题。在其解决方

案中，目的地序列以不确定形式表示为概率化数据，每个序列的可能性通过概率连乘的形

式进行建模和计算。

2.2.2 密度分析挖掘技术

假定面向的场景为欧氏空间，Tao等人 [119] 提出了在给定空间窗口和时间间隔内对时

空对象进行计数的方法。该方法可用于计算一定区域范围内的对象密度，但不能支持复杂

的室内拓扑结构和在室内拓扑下自定义形状的室内区域。Li等人 [120]提出了对室外空间中

线性移动的对象进行聚类的方法。由于室内环境下对象的移动并不能采用线性模型进行

捕捉，该方法并不适用于本文第三章的室内区域密度的分析与计算。Yiu等人 [121] 提出了

基于密度的层次化方法对路网空间的静态对象进行分组和聚类。Hadjieleftheriou等人 [122]

使用已知的线性方程对室外移动对象进行建模，并定义了快照或时间段的阈值密度查询

（threshold density queries）。由于室内移动和室内拓扑的特殊性，这些方法同样不适用于本

文研究的室内区域密度计算分析。

面向于欧氏平面上的线性移动对象，Jensen等人 [123]提出了快照密集区域查询。为提

升查询结果的准确度，Ni等人 [124] 重新设计了区域密度的定义，并使用了小方形（neigh-

25


borhoods）来近似任意形状的室外区域。在相同的场景设定中，Hao等人 [125] 对动态的连

续密度查询（continuous density queries）进行了研究。上述工作 [122–125]对移动对象的建模

皆采用线性模型，未考虑到室内环境中对象移动的复杂形态，也未考虑到室内拓扑结构不

同于自由空间的限制条件，因而不适用于解决本文研究的室内密集区域挖掘问题。

Huang等人 [126]考虑了自由移动对象相关的在线密集区域查询问题，该问题设定中对

象的位置用一个传感元件的感应范围进行表达。在路网空间的设定下，Li等人 [127]考虑了

从历史移动对象轨迹数据中找出交通中密度最大的热点路线。同样设定下，Lai等人 [128]则

考虑了连续的密集路段监控（dense segment monitoring）问题。该方法将移动对象的位置

建模为特定路网段端点的偏移量值。上述方法对数据中对象位置的表达不同于本文第三章

采用的几何位置格式，同时也未考虑到位置报告时间过时导致的时空不确定问题。

2.2.3 流量分析挖掘技术

Cao等人 [129] 提出了一种从 GPS轨迹数据中识别 top-k重要语义位置的方法，其位置

排名模型考虑的因素包括访问次数、访问持续时间及用户到达这些位置所需移动的距离

等。Tao等人 [119] 提出的在特定时空范围内的对象计数技术同样可用于分析计算特定区域

的流量信息。Xue等人 [118]对采样的目的地位置序列进行不确定轨迹构建的方法亦可作为

区域流量计算的工作基础。与这些工作相比，本文第四章提出的位置流量分析计算方法存

在几点不同。首先，本文方法利用室内拓扑关系来支持对离散室内移动数据的访问和搜

索，而上述工作都不支持室内拓扑模型，因而不适用于本文定义的语义位置流量计算模

型。其次，为对移动对象的运动进行建模，本文方法构建了面向不确定样本定位记录的一

组可能路径，而文献 [119,129]中的方法仅能对确定性的移动数据进行处理。其三，本文方法

基于在每个时间戳报告的概率样本来计算可能路径的概率值，而文献 [118]中的方法使用从

历史数据中学习到的目的地间转移概率（transition probability）进行路径的概率估计。

同2.2.1小节介绍的利用轨迹数据对运动不确定性进行补全或推断的方法 [115–117] 相比，

本文第四章提出的流量分析技术具有以下几点不同。首先，与仅关注低采样数据不确定性

的这些工作不同，本文方法还考虑了复杂室内拓扑环境中移动对象位置的不确定性。其

次，本文考虑的不确定移动数据主要来源于室内空间，其相应对象的运动约束建模不同于

欧氏空间 [115] 或路网空间 [116,117]。其三，本文工作利用了室内拓扑来消除不确定数据的影

响从而实现可靠的流量计算模型，而上述工作则考虑参考其历史轨迹来减少移动数据的

不确定性。因此，上述工作对不确定移动数据的处理方法，并不适用于本文第四章室内流

量分析的问题设定。

26


2.2.4 语义提取和轨迹翻译技术

为满足不同应用分析的语义需求，近年来出现了一些对 GPS轨迹进行语义提取和翻

译的工作，文献 [130]最早给出了语义轨迹的通用定义，即由标注（annotations）和/或补充

性的数据分节（complementary segmentations）构成的（GPS）位置序列。

Alvares 等人 [131] 提出了基于地理信息从轨迹采样点中抽取停留和移动事件的方法。

Marketos等人 [132] 设计了一种轨迹重建方法，将原始的 GPS轨迹转化为特定应用所需的

有价值信息，包括原始轨迹的清洗和关键运动特征提取与组合技术。该方法不支持用户自

定义的上下文信息，仅提供诸如时间和空间间隙（temporal and spatial gaps）、最大速度、最

大噪声持续时长和停留中最大容忍距离（tolerance distance in a stop）等阈值参数进行移动

特征的提取。Yan等人 [133]提出了一种复合轨迹（hybrid trajectory），其封装了移动数据的

几何属性和语义信息，并支持不同层次的抽象。该工作实现了一个轨迹计算和标注平台，

允许用户导入第三方的地理信息来增强上下文信息，并提出了两种适合地理空间移动对象

的行为模式，即停止和移动。与富含上下文信息的语义轨迹有所不同，Su等人 [134]提出了

一种轨迹分割摘要（partition-and-summarization）方法，其中，原始轨迹首先根据移动对象

的行为被分割，分割后的轨迹段通过提取关键特征进行摘要，转为具有可读性的短文本内

容。本文第五章提出的移动语义挖掘方法与上述工作具有显著不同，主要体现在以下几个

方面。首先，本文的研究工作面向的是在室内环境下收集的用户定位数据，在时空属性上

都具有更大的不确定性。同时，室内定位机制、复杂的室内拓扑及特定的移动性约束 [104]

使得本文的问题不同于自由空间 [131,132]或交通路网 [133,134]下对定位序列的处理。其次，本

文提出的方法将原始定位数据转换为具有一般移动事件的多个移语义元组以提升计算与

查询的效率，而文献 [134]则生成非结构化的文本信息。其三，本文的方法通过利用从历史

数据中获得的移动知识来进一步补充移动语义序列，而其它相关工作 [131–133] 并未对此进

行考虑和解决。因此，上述工作都不适用于本文第五章提出的室内移动语义挖掘问题。

2.3 本章小结

本章对不确定室内移动数据分析挖掘的研究基础和发展现状进行了阐述。我们首先

围绕室内数据分析挖掘的主题对相关理论和方法进行了详细介绍，并对其下层的室内定

位、室内空间建模及移动对象索引、数据清洗、数据查询等相关课题进行了归纳总结。我

们还对目前已有的室外移动数据的分析挖掘技术进行了介绍，特别对与本文研究内容相

关的不确定轨迹建模和分析、密度分析挖掘、流量分析挖掘以及语义抽取和轨迹翻译的工

作进行了综述，阐明了已有方法在解决本文问题时存在的缺陷和不足。

27

浙江大学博士学位论文第三章室内密度分析挖掘方法


3.1 引言

公共室内环境，如商场、地铁站、机场等，往往容易在短时间内出现密集人群。早

在 2004 年，香港新城广场的周末流量就达到了 320,000 人次À，考虑到商场的开放时间

（11AM-10PM）Á，可推算出该商场中每小时的活动人数会超过 29,000人。根据 CNTraveler

对北京国际机场 2017年每日出发旅客人数的报道Â可推算得出，该机场在最高峰时刻的

接待旅客人数同样达到了万人以上的规模。

当室内空间中聚集了大量人群时，及时有效地计算室内区域的人数密度并找出当前空

间中的密集区域，将在拥塞控制、安防管理方面起到十分关键有利的作用。例如，在大型

机场中，控制中心迫切希望能快速找出当前时刻航站楼中最拥堵的区域，以便采取快速的

应对措施，如打开更多通道帮助旅客快速通行。再如，在商场运营过程中，安防管理人员

可以向当前出现拥堵的区域加派更多保安进行巡逻疏散来确保顾客的人身安全。

由于室内空间可看作由门连通的多个基本分区（如房间）的组合，一种基本的计算室

内区域密度的方案即为每个分区（partition）的所有门处安装计数传感器。但这一简单想

法存在三方面阻碍：首先，它需要对专用硬件进行大量投资；其次，每当室内拓扑结构发

生变更——如大型会议厅临时分成几个较小的房间时（或反之），就需要适时地重新部署

传感器；再次，在缺乏门或物理边界的区域，如在大型展厅的开放展位，很难找到安装传

感器的合适位置。为更灵活地解决室内密集区域挖掘的问题，本章提出了一种低成本、数

据驱动的计算方法，可从当前广泛可用的室内移动数据中对区域密度进行有效的度量分

析。相较于上述简单方案，本章使用的方法无需安装特定硬件、不受复杂动态的室内拓扑

结构影响，并灵活适用于用户自定义的室内区域。

面向室外场景的 GPS或类似格式数据，现有的欧氏空间 [122–126] 或路网空间 [121,127,128]

的密度计算分析方法在室内场景中并不适用，这主要源于两方面的技术挑战：

(1) 室内具有特殊的空间实体对象，如房间、墙壁、门和楼梯等，它们共同形成了复

杂的室内拓扑结构，实现也同时限定了移动对象的运动。因此，室内密度的计算

Àhttp://www.people.com.cn/GB/shizheng/1025/2315691.htmlÁhttp://www.newtownplaza.com.hk/zh-hans/shoppingÂhttps://www.cntraveler.com/story/this-200-million-dollar-airport-sees-an-average-of-7-passengers-a-day

29

第三章室内密度分析挖掘方法浙江大学博士学位论文

必须考虑到复杂室内拓扑结构带来的影响。

(2) 与连续报告经纬度信息的 GPS数据不同，室内定位系统的采样频率较低，且仅报

告离散的室内位置。因此，用于计算室内密度的移动数据可能是过时的，即留有

相当大的时空不确定性。在室内拓扑环境下处理这一问题，则变得更具挑战性。

综上所述，如何利用不确定的室内移动数据，快速及有效地找出复杂室内环境中的密

集区域并非一项简单的任务。因此，本章将重点研究面向时空不确定数据的室内空间 top-k

密集区域挖掘问题。在问题设定中，用户可自定义一组候选的室内区域。同时，室内移

动对象的最近一条定位结果保存在一个在线室内定位表（Online Indoor Positioning Table,

OIPT）中，此外无更多近期信息。OIPT中任一定位记录 (o, loc, t)表示对象 o在 t时刻被

报告在室内位置 loc。

在当前时刻触发查找时，由于室内定位的低频采样和记录的离散性，OIPT中的定位

信息已经过时，因此对象的位置是未知的——处于一个不确定区域中。由于位置的不确定

性，直接计算室内区域内的对象并不能获得有效的区域密度值。为解决这一问题，本章

方法在对于室内区域密度进行建模计算时，充分考虑了室内对象的移动不确定因素。随

后，本章提出了室内缓冲区域（Indoor Buffer Region, IBR）和室内核心区域（Indoor Core

Region, ICR）的概念来推导任一室内区域的密度上下界。通过密度上下界的使用，密度计

算可只集中在相关移动对象上，因而可更高效完成。IBR和 ICR的计算推导具有一定复

杂性，其不仅涉及到定位结果的不确定性，还涉及复杂的室内拓扑。同时，在分析计算具

体的室内密度时，本章方法还考虑到了实际的距离衰减（distance decaying）效应，而非假

定移动对象具有均匀分布的不确定区域。最后，在计算推导的室内密度严格上下界的基础

上，本章提出了采用高效剪枝策略的 top-k密集区域挖掘算法来挖掘当前时刻室内空间中

的有效密集区域。

概括而言，本章研究工作的主要贡献如下：

(1) 本章提出了一项适用于室内对象移动不确定性的室内密度定义，并形式化地阐述

了挖掘 top-k室内密集区域的问题。

(2) 本章针对时空不确定的快照移动数据，分析了移动对象的位置不确定性，推导得

出室内区域密度的上下界，并将距离衰减效应引入到室内区域密度的计算模型中。

(3) 通过利用对象位置不确定性的分析结果，本章设计了高效算法来挖掘当前的 top-k

室内密集区域。

(4) 本章同时采用合成数据集和真实数据集对提出的方法进行了全面的实验评估，并

充分验证了提出方法的有效性、高效性和可扩展性。

30


3.2 概念及问题设定

表3.1给出了本章研究方法对应的符号表。

表 3.1 室内密度分析挖掘方法符号表

Table 3.1 Notations for Indoor Density Analysis and Mining Approach

符号意义

oi 室内移动对象O 室内移动对象集合r, ri 室内区域（Indoor Region）Q 查询室内区域集合tc 当前查询分析时刻tmin min{rec.t | rec ∈ OIPT}，最旧记录时刻∆t tc − tmin，分析时刻差URI(loc) 在室内位置 loc处的移动对象的不确定区域τO(r) 室内区域 r关于 O的密度值Θ▷I (r) 区域 r的室内缓冲区域（Indoor Buffer Region）Θ◁I (r) 区域 r的室内核心区域（Indoor Core Region）

3.2.1 室内移动数据格式

在本章的问题设定中，定位系统产生以 (objectID, loc, t)格式表达的定位记录，其中

objectID唯一标识一个移动对象，loc为一个室内位置，t为一个时间戳，该记录意味着对

象的位置在 t时刻估计为 loc。作为抽象概念，本章使用的位置 loc可表达为点位置或小

（圆形）区域，从而对不同定位方法获得的移动数据进行通用建模。例如，在 Wi-Fi指纹

定位中 [46]，loc是目标空间中预先选择的参考点（reference point）之一。在临近定位 [12,59]

中，loc可表示为 RFID reader、蓝牙热点等传感元件的感应范围。为方便与简洁起见，本

章方法在表述上使用点位置来表示 loc。

由于有限的存储和较低的吞吐量，室内定位系统可能会选择不存储历史数据。因此，

在密度分析计算中，本章方法仅使用快照定位数据来逼近真实的区域密度情况。具体而言，

每个移动对象的最新（latest）一条定位记录被维护在（OIPT）中，如表3.2所

示。某些定位系统对移动对象的位置报告具有不定期性，因此 OIPT中对象的时间戳可能

不尽相同。我们使用 tmin来表示OIPT中的最小时间戳，即 tmin = min{rec.t | rec ∈ OIPT}。

在表3.2的示例中，tmin = t1。此外，我们还使用 Vmax来表示所有研究移动对象的最大速度。

需特别说明的是，与 GPS数据相比，室内移动数据的准确度很低。例如，指纹定位仅

在一组预定义参考点的范围内进行位置估计。而临近定位中，如果对象处于任何传感器的

感应范围之外，定位系统将不产生位置记录。因此，室内定位生成的移动数据是离散的，

31


表 3.2 在线室内定位表示例

Table 3.2 Example of OIPT

objectID location to1 l1 t1o2 l3 t1o3 l6 t6

相较之下，GPS报告的则为连续的经纬度坐标，这是二者存在的显著差别。

3.2.2 问题定义

本小节将首先介绍室内区域（Indoor Region）的概念。基本而言， À 指的是

由几何形状覆盖的室内空间的连续部分。简单起见，本章将使用矩形来表示室内区域，但

本章概念和相关方法皆可支持任意形状的区域定义。

当移动对象在 tc时刻的位置确切可知时，可通过对区域 r内的移动对象计数并与 r的

面积相除得到其密度值。然而，这一简单计算过程在本章问题解决中并不适用，其主要难点

在于对象的定位时刻与当前分析时刻 tc 间存有一定的时间差。对于任一记录 rec ∈ OIPT，

可知 rec.t ≤ tc。总的来说，OIPT中报告的位置相较分析时刻将极有可能已经过时——对

象可能在 tc时刻已经离开了其最后报告的位置。

室内定位的离散特性（参见3.2.1节）使得无法在特定分析时刻 tc获知移动对象的确切

位置。因而，本章方法需要对分析时刻 tc时移动对象位置的不确定性进行分析，并按如下

方式量化室内区域密度：给定最新采样时刻 tl的对象位置 loc，其（indoor

uncertainty region）URI(loc, tc, tl)描述了在最大移动速度 Vmax 限制下对象在 tc 时刻所能

到达的室内空间部分。在时间上下文明确时，我们将其简单表示为 URI(loc)。形式化地，

URI(loc) = RangeI(loc, Vmax · (tc− tl))Á，即 URI(loc)包含所有与 loc距离在 Vmax · (tc− tl)

以内的空间部分。注意上述距离是对象从 tl到 tc时刻的最大室内距离。

示例 3.1 3.1 l1 URI(l1)

l2 URI(l2)

相应地，我们定义了（object presence）来规定如何计算 tc 时刻给定移动

对象处于区域 r中的可能性。

定义 3.1 (对象出现度，Object Presence) OIPT (o, loc, t)

o r 出现度 ϕr(o) =Area(URI(loc)∩r)Area(URI(loc))

À除另有说明，本章所讨论的区域可明确为室内区域。Á室内范围查询 RangeI(l, δ)返回距离位置 l 的室内距离小于 δ 的室内部分 [80]；该查询的计算牵涉到所有与 l

所处区域相连通的门。

32


r1

r3

l1

l2

Vmax·(tc-tl)

r2r2

图 3.1 室内不确定区域

Figure 3.1 Indoor Uncertainty Region

当移动对象 o与区域 r不相交时，对应的出现度 ϕr(o)为 0。对于任一区域 r和任一

对象 o，易知 ϕr(o) ≤ 1始终成立。

至目前为止，我们仍假定对象在给定不确定区域 URI(loc)中的位置可能性符合均匀

分布，但这一直截了当的假设并不能很好地反映现实情况。更切合现实的考虑是，该对

象将更可能接近报告位置 loc，即移动对象于 tc 时刻处于不确定区域中某一位置 loc′ ∈

URI(loc)的概率随 loc′ 与 loc距离的增大而降低。这一距离衰减效应反映了对象运动的局

部性（locality），与人类地理学观察到的实据 [135] 一致。多种已知函数可用于描述不确定

区域 URI(loc)的距离衰减效应。距离衰减函数（distance decaying function, DDF）的具体

定义决定了不确定区域 URI(loc)与查询区域 r的相交程度的计算方式。因而，本小节仅给

出通用定义，将 DDF和相关的对象出现度的详细计算方法安排在3.3.3节进行阐述。

基于对象出现度，我们给出区域的定义，以表示某一时刻出现在该区域的对象

“个数”。

定义 3.2 (负载量，Load) O r 负载量 λO(r) =∑

o∈O ϕr(o)

令m ≤ |O|为不确定区域与区域 r相交的移动对象个数，由于每个对象对 λO(r)的贡

献最多为 1，易知 λO(r) ≤ m始终成立。

室内区域的和本章研究问题分别定义如下：

定义 3.3 (密度) O r 密度 τO(r) =λO(r)Area(r)

问题 3.1 (Top-k室内密集区域挖掘) O O

OIPT Q top-k室内密集区域挖掘 k k-

Qk ⊆ Q ∀r ∈ Qk,∀r′ ∈ Q \Qk, τO(r) ≥ τO(r′)

上述问题描述并不限定 Q中的查询区域必须为基本的室内分区。由于室内管理人员

通常很清楚需要对空间的哪些特定部分进行密度分析，本章研究的 top-k挖掘问题允许用

户根据他们的实际需要自定义一组依赖特定语义的查询区域。例如，Q中的查询区域可被

定义为室内分区的一部分或者几个分区的组合，具体的讨论将在3.3.1.3节给出。这一定义

33


的灵活性使本章的室内密集区域挖掘在某些特殊情况下依然可用，例如在空旷的开放式

展厅（单个室内分区）中找出最密集区域。

3.2.3 技术路线

为解决上述问题，本章给出了如图3.2所示的技术路线图，其包括对象移动不确定性

分析和密集区域挖掘算法两个部分，将分别在3.3节和3.4节中进行阐述：(1)在对象不确定

性分析中，我们首先判定每个候选区域的室内缓冲区域和室内核心区域，以此推导得到

区域密度的上下界；我们还引入了距离衰减模型对 OIPT中每个对象的不确定区域进行建

模。(2)在密集区域挖掘算法的设计中，我们首先介绍了总体的挖掘框架，并分别使用了

单步搜索和两步搜索的策略来查找最终的 top-k密集区域。

对象移动不确定性分析

区域密度上下界

候选区域集合Q

室内缓冲区域

室内核心区域

距离衰减模型

单步搜索算法

总体挖掘框架

两步搜索算法

密集区域挖掘算法

OIPT对象移动不确定区域

区域

对象

策略一

策略二

Top-k

结果

剪枝

出现度

图 3.2 Top-k室内密集区域挖掘的技术路线Figure 3.2 The Roadmap for Finding the Top-k Indoor Dense Regions

3.3 对象移动不确定性分析

本节对研究问题中涉及的移动不确定性进行了全面分析。3.3.1小节给出了室内缓冲

区域和室内核心区域的概念来应对与室内对象不确定区域有关的计算。同时，这些概念将

用于3.3.2小节的室内区域密度上下界的推导。最后，3.3.3小节将在移动对象不确定区域建

模中引入距离衰减效应。

3.3.1 室内缓冲区域与室内核心区域

3.3.1.1 室内缓冲区域

首先考虑一种自由移动（free-moving）空间下的情形：给定移动对象最后（或最近）

的定位记录 (objectID, loc, tl)。相较于过去时刻 tl，当前时刻 tc 该对象可能仍然位于位置

loc，或者已经离开。这导致了对象位置的不确定性——其当前位置可位于以 loc为中心、

半径为 Vmax · (tc − tl)的圆形区域内的任一点，其中 Vmax是对象的最大可能速度。由于对

象位置的不确定性，过去时刻没有对象的区域 r可在当前时间包含某些对象。但是，由于

34


最大速度限制，这些对象不能来自于太远的位置。相反，它们只能来自包含区域 r的一个

扩展区域（extended region），我们称该扩展区域为（general buffer region）或

简称缓冲区域。以下给出了一般条件下缓冲区域的定义。

定义 3.4 (缓冲区域，Buffer Region) tp tc tc ≥ tp

大 Vmax r 缓冲区域Θ▷(r, tc, tp) δ-闵可夫斯基区域 [136]

δ Vmax · (tc − tp)

在本节的分析中，tp和 tl 都表示过去某一时刻，但二者具有不同含义。简而言之，tl

总是与一个特定的移动对象关联，而 tp 则不是。从这个意义上讲，缓冲区域 Θ▷(r, tc, tp)

是一般的，独立于特定的移动对象。因此，给定一个移动对象被报告位置的时刻 tl，我们

可以推断出该对象是否在 Θ▷(r, tc, tp)中。

r

Vmax·(tc-tp)

o Vmax·(tc-tl)

图 3.3 一般缓冲区域

Figure 3.3 General Buffer Region

示例 3.2 3.3 o (o, loc, tl)

loc ∈ Θ▷(r, tc, tp) tl > tp o tl tl tp Θ▷(r, tc, tp)

o tc r

接下来，我们给出的定义。

定义 3.5 (室内缓冲区域，Indoor Buffer Region) tp tc

大 Vmax r 室内缓冲区域Θ▷I (r, tc, tp)

indoor portions (1) r Θ▷(r, tc, tp) (2)

r Θ▷(r, tc, tp)

一般而言，r的室内缓冲区域 Θ▷I (r, tc, tp)为：r的一般缓冲区域 Θ▷(r, tc, tp)与能够在

[tp, tc]时间段内到达 r的室内部分的相交区域。

3.3.1.2 室内核心区域

与室内缓冲区域相反，我们将区域 r 的定义为 r 的一个缩小区域（re-

duced region），该区域内任一点都不能在 [tp, tc]时间段内离开区域 r。正式的定义如下：

35


定义 3.6 (室内核心区域，Indoor Core Region) tp tc

大 Vmax r 室内核心区域Θ◁I (r, tc, tp) r

r 大 Vmax · (tc − tp)

当某一移动对象在过去时刻 tl（tl > tp）被最后观察到，并位于 Θ◁I (r, tc, tp)中，则可

推测得知该对象在当前时刻 tc一定不能到达 r的其中一扇门，故而仍位于 r的内部。

当时间戳无特殊含义时，我们分别使用 Θ▷I (r)和 Θ◁I (r)来表示 r的室内缓冲区域（以

下简称 IBR）和室内核心区域（以下简称 ICR）。

下一小节将给出任一室内区域 r的 Θ▷I (r, tc, tp)和 Θ◁I (r, tc, tp)的计算判定方法。

3.3.1.3 计算判定方法

在 IBR判定中，引理3.1和引理3.2可用于快速剪除不相关的空间部分。

引理 3.1 r1 r2 r2 r1 Θ▷(r1, tc, tp)

r2 r1 IBR r2 ∈ Θ▷I (r1, tc, tp)

证明 Θ▷I (r1, tc, tp) ⊆ Θ▷(r1, tc, tp) r2 ∈ Θ▷(r1, tc, tp) r2 ∈ Θ▷I (r1, tc, tp) □

引理 3.2 r1 r2 r2 r1 Θ▷(r1, tc, tp)

r2 r1 IBR r2 ∈ Θ▷I (r1, tc, tp)

证明 r2 Θ▷(r1, tc, tp) Θ▷I (r1, tc, tp)

3.1 r2 pt r1 pt′ r2

dr dr Θ▷I (r1, tc, tp) pt dr pt′ tc

r1 r2 ∈ Θ▷I (r1, tc, tp) □

r1

Vmax·(tc-tp)

r4

r3r5r2

图 3.4 室内缓冲区域

Figure 3.4 Indoor Buffer Region

示例 3.3 3.4 IBR r1 IBR 3.1

r3 r1 3.2 r4 r4

r1 r4 Θ▷(r1, tc, tp)

36


tc − tp r4 r1 Θ▷(r1, tc, tp) r2 r2

r1 Θ▷(r1, tc, tp)

在上例中，通过排除房间 r3、r4 和部分的 r2、r5，我们可得如图3.4中所示的阴影部

分，但其并不是 r1 的精确 IBR。事实上，区域 r1 的室内缓冲区域 Θ▷I (r1, tc, tp)是房间 r1

及阴影部分的。

接下来，我们将阐述阴影部分的哪些部分应被扩入 Θ▷I (r1, tc, tp)中。此处我们假定空

间中所有的门皆为双向连通（bidirectional），但本章方法可简单扩展从而支持仅单向连通

（unidirectional）的房门。我们使用 P2D(r) [80]来获得与室内分区 r相连的一组门。如果查

询的室内区域 r 一个室内分区（partition），引理3.3中考虑房门的方法可满足

对 r的室内缓冲区域 Θ▷I (r1, tc, tp)的判定。

引理 3.3 r r r δ = Vmax ·

(tc − tp) Θ▷I (r, tc, tp) = r ∪∪

d∈P2D(r)RangeI(d, δ)

证明 3.1 3.2

□

对应地，给定室内分区 r，引理3.4可利用到其房门的室内最短路径来判定 r的室内核

心区域 Θ◁I (r1, tc, tp)。

引理 3.4 r r r δ =

Vmax·(tc−tp) Θ◁I (r, tc, tp) = r\∪


证明 pt ∈ r d ∈ P2D(r) pt /∈∪


pt tc − tp d tc r □

因此，图3.4中房间 r1 的精确 IBR为 r1 与图3.5(a)的阴影部分的并集；而 r1 的精确

ICR则如图3.5(b)的阴影部分所示。

r1 r4

r3r5r2

Vmax·(tc-tp) Vmax·(tc-ti)

o1

o2

o3

o4

r1

Vmax·(tc-tp)

Vmax·(tc-ti)

o3

o4

(a)室内缓冲区域，IBR (b)室内核心区域，ICR

图 3.5 精确室内缓冲区域与室内核心区域

Figure 3.5 Precise Indoor Buffer Region and Indoor Core Region

37


另一方面，查询的室内区域 r 可能并不等同于一个室内分区，而是完整分区和/或不

完整分区的组合。本章方法可支持用户自定义形状的室内查询区域。为便于阐述，以下考

虑矩形形状的室内区域，其任一边可以为：i)没有门的墙壁；ii)带有门的墙壁；iii)完全

位于某室内分区内的开放边（open segment）；iv)由 i)-iii)进行的组合。

图3.6展示了一个复杂的查询区域 ra，其由房间 r1的一部分、房间 r5的一部分以及房

间 r4 的全部构成。ra 的左侧边、右侧边及下侧边都为没有门的墙壁，而其上侧边由三部

分构成：r1内部的开放边、r5内部的开放边和带有通向 r4的门的墙壁。

r1 r4

r3r5r2

ra

图 3.6 复杂查询区域的示例

Figure 3.6 An Example of Complex Query Region

算法3.1给出了任意形状的室内区域 r的 IBR和 ICR计算判定方法。其中，δ依然表示

Vmax · (tc− tp)。对于 r的每扇门 d（行 3），变量 rm包含了与 d的室内距离在 δ之内的室内

空间部分（行 4），其被扩入到缓冲区域 Θ▷I 中并被排除出核心区域 Θ◁I（行 5）。对于 r的

每条开放边 g（行 6），令 rm为 g的 δ-闵可夫斯基区域（行 8中M(g, δ)）和 g所在室内分

区 p的相交部分（行 9）。随后，rm被扩入到缓冲区域 Θ▷I 中并被排除出核心区域 Θ◁I（行

10）。对 Θ▷I 的判定可通过所有在一般缓冲区域 Θ▷(g)内的门向外持续扩展（行 11–13）。

算法 3.1 DetermineIbcRs(Region r, Distance δ)1 Θ▷I ← r; Θ◁I ← r2 for r’s each side λ do3 for each door d on λ do4 rm ← RangeI(d, δ)5 Θ▷I ← Θ▷I ∪ rm; Θ◁I ← Θ◁I \ rm6 for each open segment g on λ do7 find the indoor partition p that contains g8 get g’s general buffer region Θ▷(g)←M(g, δ)9 rm ← p ∩Θ▷(g)

10 Θ▷I ← Θ▷I ∪ rm; Θ◁I ← Θ◁I \ rm11 for each door d ∈ P2D(p) and in Θ▷(g) do12 get the shortest indoor distance δ′ from d to g13 Θ▷I ← Θ▷I ∪RangeI(d, δ − δ′)14 return Θ▷I , Θ◁I

38


3.3.2 室内区域密度上下界

室内定位数据固有的时空不确定性使室内密度的计算变得复杂。因此，本小节将利

用3.3.1小节中介绍的 IBR和 ICR概念，对室内区域密度的上下界进行推导。

我们使用函数COUNT(r)来获取最后报告位置在区域 r中的移动对象个数。引理3.5给

出了基于 r的缓冲区域 Θ▷I (r)与核心区域 Θ◁I (r)推导得到的区域密度上下界。

引理 3.5 (室内区域密度上下界) COUNT(Θ◁I (r))

Area(r)≤ τO(r) ≤

COUNT(Θ▷I (r))

Area(r)

证明 COUNT(Θ◁I (r)) ≤ λO(r) ≤ COUNT(Θ▷I (r))

Θ◁I (r) tc r r 1

3.2 COUNT(Θ◁I (r)) ≤ λO(r) tl tl ≥ tp

o r λO(r) r Vmax · (tc− tl)

3.5 o tl Θ▷I (r) λO(r) ≤ COUNT(Θ▷I (r)) □

引理3.6通过使用一个到当前时刻 tc更长的时间间隔，松弛了室内区域密度的上下界。

引理 3.6 (时态松弛密度上下界) ti tp ti ≤ tpCOUNT(Θ◁

I (r,tc,ti))

Area(r)≤ COUNT(Θ◁

I (r,tc,tp))

Area(r)≤ τO(r) ≤

COUNT(Θ▷I (r,tc,tp))

Area(r)≤ COUNT(Θ▷

I (r,tc,ti))

Area(r)

证明 ti tp Θ▷I (r, tc, ti) r 大

Θ▷I (r, tc, ti) 大 Θ▷I (r, tc, tp) Θ◁I (r, tc, ti)

Θ◁I (r, tc, tp) (1) λO(r) ≤ COUNT(Θ▷I (r, tc, tp)) ≤

COUNT(Θ▷I (r, tc, ti)) (2) COUNT(Θ◁I (r, tc, ti)) ≤ COUNT(Θ◁I (r, tc, tp)) ≤ λO(r) □

示例 3.4 3.5(a) 6

tc r1

10 o3 o4 r1 o5

r1 r1 τO(r1) = 2.5/10 = 0.25 r1 Θ▷I (r1, tc, tp)

r1 COUNT(Θ▷I (r1, tc, tp))/Area(r1) = 5/10 =

0.5 > τO(r1) 3.5(a) Θ▷(r1, tc, ti) r1 Θ▷I (r1, tc, ti)

大 o2 COUNT(Θ▷I (r1,

tc, ti))/Area(r1) = 6/10 = 0.6 > COUNT(Θ▷I (r1, tc, tp))/Area(r1) = 0.5 > τO(r1) = 0.25

3.5(b) ICR COUNT(Θ◁I (r1, tc, tp))

/Area(r1) = 2/10 = 0.2 < τO(r1) Θ◁I (r1, tc, ti) o4

COUNT(Θ◁I (r1, tc, ti))/Area(r1) = 1/10 =

0.1 < COUNT(Θ◁I (r1, tc, tp))/Area(r1) = 0.2

39


3.3.3 不确定区域的距离衰减建模

根据3.2.2节的介绍可知，是对象移动中十分常见的现象——目的位置距当前

位置越远，则移动对象到达该位置的可能性越低。这一效应可使用（distance

decaying function，DDF）进行建模。

示例 3.5 DDF monotone nonincreasing 3.3 DDF

线性衰减律 (Linear Decay Law LDL)

Γ(δ) = 1− δ/D D = maxl∈URI(loc) distI(loc, l) loc URI(loc)

À 逆一次幂律 Inverse 1st Power Law I1PL 逆二次幂律 Inverse 2nd

Power Law I2PL 指数衰减律 Exponential Decay Law EDL

恒定律 (Constant Law CL) Γ(δ) = C

C CL

表 3.3 距离衰减函数示例

Table 3.3 Example of DDFs

缩写基本形式名称

LDL Γ(δ) = 1− δ/D Linear Decay LawI1PL Γ(δ) = 1/(δ + 1) Inverse 1st Power LawI2PL Γ(δ) = 1/(δ + 1)2 Inverse 2nd Power LawEDL Γ(δ) = e−δ Exponential Decay LawCL Γ(δ) = C Constant Law

DDF的使用可有效区别 URI(loc)中不同位置对应的对象出现度（参见原定义3.1）。对

应地，本小节给出了引入距离衰减效应的对象出现度定义，如下：

定义 3.7 (距离衰减对象出现度，Distance Decaying Object Presence) r

o URI(loc) Γ o r

ϕΓr (o) =

∫l∈(URI (loc)∩r) Γ(distI(loc,l)) dl∫

l∈URI (loc)Γ(distI(loc,l)) dl

由于 ϕΓr (o) ≤ 1始终成立，3.3.2小节推导的密度上下界在引入不同 DDF进行区域密

度计算时仍然适用。

3.4 Top-k室内密集区域挖掘算法

本节介绍了 top-k 室内密集区域的挖掘算法。3.4.1小节给出了挖掘算法的总体框架。

3.4.2小节和3.4.3小节分别提出了单步（one-pass）搜索和改进的两步（two-passes）搜索算

À任意两个位置 lx, ly 间的室内距离可使用函数 distI(lx, ly)进行计算，计算方法参见文献[80]。

40


法来完成 top-k结果的挖掘。3.4.4小节对以上两种方法进行了计算复杂度的比较分析。

3.4.1 总体框架

我们使用 R-tree对室内分区进行索引，并为每个分区维护一个桶，以存放所有在OIPT

中最后报告位置被该分区包含的移动对象的 ID。OIPT则使用以对象 ID为主键的哈希表

进行组织。实现上，我们使用单独线程更新 OIPT及室内分区对应的桶，与密集区域挖掘

的线程相分离。在收到对象的最新定位报告之后，更新线程检查自上次定位报告被记录之

后，对象是否已移动到另一室内分区，并在必要时将对象 ID移动到其对应的新桶中。

算法3.2给出了 top-k 室内密集区域挖掘的总体框架。它采用最大堆 H 来控制查询集

合中候选区域被处理的顺序（行 1），并使用哈希表 hQ（行 2）来维护与查询区域 r密度

计算相关移动对象的集合。更重要的一点，它使用了基于3.3小节的引理3.5和引理3.6设计

的剪枝规则，如以下。

剪枝规则 3.1 (上下界剪枝) r1 r2

1) LowerBound(τO(r1)) > UpperBound(τO(r2)) τO(r1) > τO(r2)

r1 LowerBound(τO(r1)) k r2

τO(r2)

2) τO(r1) > UpperBound(τO(r2)) τO(r1) > τO(r2) r1 τO(r1)

top-k r2

算法 3.2 TopkIDRs(Indoor query region set Q, Partition R-tree RP , Online indoor positioningtable OIPT, Current time tc)

1 initialize a max-heap H2 initialize a hash table hQ : Q→ {(2ObjectID, 2ObjectID)}3 initialize a lower bound density set S⊥4 tmin ← min{rec.t | rec ∈ OIPT}5 δ ← Vmax · (tc − tmin)6 for each region r ∈ Q do7 ibr, icr ← DetermineIbcRs(r, δ)8 (set⊤, set⊥)← COUNT4ibcRs(ibr, icr, RP )9 hQ[r]← (set⊤, set⊥)

10 add |set⊥|Area(r)

to S⊥

11 kbound← the k-th highest in S⊥12 for each region r ∈ Q do13 (set⊤, set⊥)← hQ[r]

14 if |set⊤|Area(r)

≥ kbound then15 enheap(H, ⟨r,OE_IBR, |set⊤|

Area(r)⟩)

16 return Search(H, hQ)

41


具体而言，算法3.2对查询区域 r的密度值分别进行上估和下估。根据引理3.6的时态

松弛上下界，我们首先得到 OIPT中最老旧的时间戳 tmin = min{rec.t | rec ∈ OIPT}，并

使用 tmin 来推出区域 r 的缓冲区域 ibr 和核心区域 icr（行 4–7）。而根据引理3.5，我们

可通过统计 ibr / icr中对象个数来上估/下估 r的密度值（行 8调用算法3.3）。所有无关对

象则可根据 IBR的特性进行剪除。随后，算法3.2分别将当前区域 r 对应的上估对象集合

set⊤ 和下估对象集合 set⊥ 存储到哈希表 hQ 中（行 9），另外，其对应密度下界可计算为|set⊥|Area(r)

并被添加到下界密度集合 S⊥中（行 3和行 10）。在此之后，根据剪枝规则3.1的第

一个属性，只有上界密度 |set⊤|Area(r)

不小于集合 S⊥中第 k大值的区域才能进入到下一步处理

（行 11–14）。对于每一符合要求的区域 r，标志值 OE_IBR和 r 的上界密度被组合并压入

最大堆H 中（行 15）。标志值 OE_IBR表示 r的当前密度是根据其 IBR上估的。此信息可

用于后续的密集区域挖掘过程，详见3.4.2小节和3.4.3小节。

当所有无需剪除的候选区域被压入堆后（行 12–15），算法框架调用搜索算法来挖

掘 top-k密集区域。本节设计了两个不同版本的搜索算法，二者皆考虑利用最大堆来优先

处理具有更高上估密度值的室内查询区域。对于一个候选区域 r 和其上估对象集合 set⊤：

3.4.2小节提出了一种单步搜索算法，一次性地对 set⊤ 中的移动对象进行检查来计算 r 中

对象的负载量；3.4.2小节则通过改进，提出了一种两步搜索算法，将区域密度的计算分为

两步，仅在必要时才对某一区域的对象负载量进行精确计算。

基于 IBR和 ICR，算法3.3对给定区域 r 的负载量分别进行上估和下估。其首先使用

深度优先搜索（行 2）在 R-tree上对相关对象进行处理。被 ibr完全覆盖的叶结点中的对

象（行 7–9）或报告位置被 ibr 包含的对象（行 12–15）全部计入负载量的上估之中。同

样，最后报告位置被 icr包含的对象则计入负载量的下估之中（行 10-11和行 16–17）。最

终，算法3.3返回给定区域的上估对象集合 set⊤和下估对象集合 set⊥（行 3）。

3.4.2 单步搜索算法

单步搜索算法如算法3.4所示。它通过最大堆顺序对候选区域进行逐一处理，直到 top-

k 结果已经返回。当某一区域 r 从 H 中被取出、且其标志值表明其当前密度为基于 IBR

的上估（如行 4 中 OE_IBR 所示）时，算法从哈希表 hQ 中取出其上估对象集合 set⊤ 和

下估对象集合 set⊥（行 5）。注意，set⊥ 中所有对象都必在 r中，因而它们的计数可直接

累加到负载量 count上（行 6）。此后，算法3.4继续对 set⊤ \ set⊥这一可变部分（variable

part）中的对象进行遍历，以对 r 的负载量进行更新（行 6–11）。具体而言，算法首先根

据定义3.1来将所有不确定区域与 r 有包含或相交关系的对象的出现度进行累加。当负载

42


算法 3.3 COUNT4ibcRs(Indoor buffer region ibr, Indoor core region icr, Partition R-tree RP )1 set⊤ ← ∅; set⊥ ← ∅; node← RP .root2 dfs(node)3 return (set⊤, set⊥)4 function DFS(Partition R-tree node node) ▷ Depth-first search5 if node is a leaf node then6 for each leaf entry le in node do7 if le is fully contained in ibr then8 for each object o in le do9 add o to set⊤

10 if o.loc falls in icr then11 add o to set⊥12 else if le overlaps ibr then13 for each object o in le do14 if o.loc falls in ibr then15 add o to set⊤16 if o.loc falls in icr then17 add o to set⊥18 else19 for each child node child in node do20 if child.mbr overlaps ibr then21 dfs(child)

量 count累加完毕后，算法将 r和其对应的密度值重新压入 H 中，并给其附上标志值 IR

（行 12）。标志值 IR表示当前密度值已经是基于室内区域 r本身进行计算的。当带有这一

标志值的区域 r在后续迭代中被取出（行 13），r被直接加入到挖掘结果中（行 14）。若结

果中已包含 k个密集区域，算法将返回结果（行 15），这是因未处理的区域不可能具有比

当前 top-k结果更高的密度值（参见剪枝规则3.1的第二条属性）。

对任一遇到的候选区域 r，算法3.4对其可变部分 set⊤ \ set⊥中的移动对象进行逐一检

查。这一方法对区域 r的密度采取一次性地计算（行 4–12），不仅耗时，且不一定能得到

收效（例如，当 r最终密度很低不能进入 top-k结果的候选时）。为此，我们设计了一种改

进的搜索算法，该方法将区域 r的密度计算过程分为两步，而第二步仅在第一步不能将 r

从 top-k结果中快速剪除时才对 r进行精确的密度计算。

3.4.3 改进的两步搜索算法

改进的两步搜索算法如算法3.5所示。对任一遇到的候选区域 r，当其密度值为基于

IBR的上估时，算法首先调用算法3.6来获得仅涉及 tc 时刻可能在 r 内的移动对象的严格

密度上界（行 6）。我们使用函数 OverCount(r)来获得不确定区域与区域 r 相交的对象的

数量。以下引理给出了 r的室内密度严格上界。

43


算法 3.4 Search1Pass(Max-heap H , Hash table hQ)1 result← ∅2 while H is not empty do3 ⟨r, f lag, density⟩ ← deheap(H)4 if flag is OE_IBR then ▷ Overestimate for Θ▷I (r)5 (set⊤, set⊥)← hQ[r]6 count← |set⊥|7 for each object o ∈ set⊤ \ set⊥ do8 if URI(o.loc) is fully contained in r then9 count← count+ 1

10 else if URI(o.loc) ∩ r = ∅ then11 count← count+ ϕΓ

r (o)

12 enheap(H, ⟨r, IR, countArea(r)

⟩)13 else ▷ flag is IR and the density is computed for r14 add r to result15 if |result| = k then return result

引理 3.7 (超量计数上界，OverCount Upper Bound) τO(r) ≤ OverCount(r)Area(r)

≤ COUNT(Θ▷I (r))

Area(r).

证明 3.1 3.2 λO(r) ≤ OverCount(r) r

o tl r Vmax · (tc− tl)

3.5 tl OIPT o tl Θ▷I (r)

Θ▷I (r) OverCount(r) ≤ COUNT(Θ▷I (r)) □

算法 3.5 SearchImproved(Max-heap H , Hash table hQ)1 result← ∅2 while H is not empty do3 ⟨r, f lag, density⟩ ← deheap(H)4 if flag is OE_IBR then ▷ Overestimate for Θ▷I (r)5 (set⊤, set⊥)← hQ[r]6 (count, setu)← OverCount(r, set⊤, set⊥, tc)7 if setu = ∅ then8 enheap(H, ⟨r, IR, count

Area(r)⟩)

9 else10 hQ[r]← (setu,∅)11 enheap(H, ⟨r,OE_IR, count

Area(r)⟩)

12 else if flag is OE_IR then ▷ Overestimate for r13 (setu,∅)← hQ[r]14 count← density · Area(r)− |setu|15 count← count+ COUNTu(r, setu, tc)16 enheap(H, ⟨r, IR, count

Area(r)⟩)

17 else ▷ flag is IR and the density is computed for r18 add r to result19 if |result| = k then return result

44


算法3.6对基于 IBR的上估返回的移动对象进行处理（参见算法3.3）。其首先统计 set⊥

中对象的个数得到确定的计数部分（行 1），并对 set⊤ \ set⊥ 中尚不确定的对象进行遍历

（行 2–6）。如果一个对象 o的不确定区域 URI(o.loc)在 tc时刻完全被查询区域 r覆盖，则

确定部分的计数可以加 1（行 3–4）。如果 URI(o.loc)仅与 r存在相交，则 o被算入不确定

部分的计数并被添加到集合 setu 中以进一步处理（行 5–6）。最后，确定和不确定两部分

计数及集合 setu被返回（行 7）。

算法 3.6 OverCount(Indoor region r, Object set set⊤, Object set set⊥, Current time tc)1 countc ← |set⊥|; countu ← 0; setu ← ∅2 for each object o ∈ set⊤ \ set⊥ do3 if URI(o.loc) is fully contained in r then4 countc ← countc + 15 else if URI(o.loc) ∩ r = ∅ then6 countu ← countu + 1; add o to setu7 return (countc + countu, setu)

回到算法3.5的处理中，如果不确定对象集合为空（行 7），则候选区域 r、标志值 IR和

r的当前密度值被压入最大堆（行 8）。标志值 IR表示当前计算的密度值为 r的最终密度

值。否则，不确定对象集合 setu被加入到哈希表中（行 10），此处的 ∅用于保证 hQ中格

式的一致性。随后，r被赋予标志值 OE_IR并压入堆中（行 11），以表明其当前密度值为

基于候选区域本身的上估值，仍需对其不确定部分进行计算。当此类候选区域在后续迭代

中取出（行 12），算法3.5分离其确定计数部分以避免重复计算（行 14），并调用算法3.7来

处理其不确定部分的对象。

算法3.7处理那些不确定区域仅和给定区域 r 有部分相交的对象。对于每一此类对象

o，算法计算 o的不确定区域 URI(o.loc)有多少在 r内部（行 3）。最终，不确定部分的精

确计数被返回（行 4）。

算法 3.7 COUNTu(Indoor region r, Object set set, Current time tc)1 countu ← 02 for each object o ∈ set do3 countu ← countu + ϕΓ

r (o)

4 return countu

再次退回算法3.5中，两部分计数相加后（行 15），被处理区域 r、标志值 IR和 r 的

最终密度值被压入堆中（行 16）。当 r 在后续迭代中取出时，其处理与算法 3.4的对应部

分相同。概括而言，算法3.5分两步对一个候选区域 r的对象个数（及密度值）进行上估。

两步处理分别调用算法3.6和算法3.7来对不确定区域被 r覆盖和与 r相交的对象进行计数。

45


在两步的衔接上，引理3.7所推导得到的严格密度上界被赋值给 r（算法3.5行 11），其刚好

介于算法3.3给出的基于 IBR的粗略上界和 r的最终密度值之间。通过这一两步搜索方式，

我们希望避免计算更多不确定部分对象的出现度（该过程在计算上十分耗时）——试想此

时推导的严格密度上界已经低于或的其它候选区域的最终密度时。

3.4.4 改进方法的性能增益分析

我们用 TopkIDRs1Pass 和 TopkIDRsImprd 分别表示采用单步搜索和改进的两步搜索

的室内密集区域挖掘方法。两项方法的关键计算部分都是对查询集合 Q中室内区域的密

度进行估算。为简单起见，我们假定每一候选区域的计算成本大致相同——其单位成本

（unit cost）用 Cp表示，两项方法的性能差异分析如下：

假定 TopkIDRs1Pass在返回 top-k 密集区域前，按照 r1, r2, . . . , rx 的顺序计算了 x个

区域的密度 (x ≥ k)。注意，这 x个区域的上估密度（标志值为 OE_IBR）都应高于 τO(rk)。

在挖掘过程终止后，TopkIDRs1Pass仍在其最大堆中保留 x− k个标志值为 IR的候选区域

（参见算法3.4中行 4与行 12）。另一方面，在将区域 rk 添加到结果之前，TopkIDRsImprd

也对上述 x个候选区域的密度进行了计算或上估（尽管可能以不同的顺序完成）。在过程

终止后，TopkIDRsImprd在最大堆中保留有 x− k个候选区域，但是每个区域的标志值可

以是 IR 或者 OE_IR（参见算法3.5的行 4、行 11 和行 16）。具有任一标志值的区域的数

量的期望值为 x−k2。对候选区域而言，上估其密度的成本（标志值 OE_IR）明显低于计算

其具体密度（标志值 IR）的成本。因此，TopkIDRs1Pass的计算成本期望值为 x · Cp，而

TopkIDRsImprd的成本期望值为 (k + x−k2) · Cp。

由于 k ≤ x ≤ |Q|，可令 x = k+|Q|2。因此，TopkIDRsImprd 的性能增益可以估算为

x ·Cp− (k+ x−k2) ·Cp =

x−k2·Cp =

(k+|Q|)/2−k2

·Cp =|Q|−k

4·Cp。当查询区域集合 Q变大时，

性能增益也会增加；而当需要返回更多区域时，性能增益则会降低。当 k 值等于 |Q|时，

即我们需要对整个查询集合中的区域计算具体密度值，两个过程的性能是几乎相等的。以

上简要分析同3.5.2.2节的实验结果相一致。

3.5 实验结果与分析

本节对提出的室内密度分析挖掘方法进行了实验验证和结果分析。其中，3.5.1节介绍

了实验对比方法及度量模型，3.5.2小节和3.5.3小节分别展示了合成和真实数据集上的实验

结果。所有算法均采用 Java实现，实验环境为搭载 3.10GHz主频 Core i3 CPU的 PC主机。

46


3.5.1 对比方法及度量模型

对比方法本节对 3.4.4节介绍的 TopkIDRs1Pass和 TopkIDRsImprd挖掘方法进行了比

较分析。由于现有研究工作难以解决本章提出的室内密集区域挖掘问题，以下设计并实现

了五种用于实验比较的方法：

(1) 一种（directly counting）方法通过统计 OIPT中被查询区域 r ∈ Q包含的报

告位置数量来作为 r 的负载量，并对所有查询区域进行排序返回 top-k 结果。该方法

忽略了移动数据中的不确定性，记为 DC；

(2) 一种区域导向的循环嵌套方法 NLRegion（region-oriented nested-loop）为每一区域 r ∈

Q计算其来自所有对象的出现度来获得相应密度值，top-k密集区域则通过排序返回；

(3) 由于 NLRegion需要在每一区域处理时遍历所有移动对象，一种对象导向的循环嵌套

方法 NLObject（object-oriented nested-loop）将 NLRegion 的内外循环顺序进行交换。

具体而言，NLObject迭代 OIPT中包含的对象，并计算其在每个查询区域中对应的出

现度。在对象迭代计算完成后，top-k密集区域被排序返回；

(4) 相比 NLRegion考虑所有对象，NLwgbr（nested-loop with general buffer region）使用查

询区域的一般缓冲区域对搜索空间进行剪枝，快速排除对密度值贡献为 0的对象；

(5) 与 NLwgbr类似，NLwibr（nested-loop with indoor buffer region）采用查询区域的室内

缓冲区域对搜索空间进行剪枝。

上述方法中，(2)-(5) 皆使用了本章建立的面向时空不确定数据的区域密度计算模

型。此类方法（包括 TopKIDRs1Pass和 TopKIDRsImprvd）被称为不确定模型（uncertainty

model）方法，记为 UM。NLRegion的主要时间成本估计为 |Q| ·CpRegion且有 CpRegion ≫ Cp，

Cp为密度计算的单位成本（参见3.4.4小节）。NLwgbr与 NLwibr的时间开销分别可估计为

|Q| · CpNLgbr 和 |Q| · CpNLibr，可知 CpNLgbr > CpNLibr > Cp。相较而言，本章方法的开销上界

可估计为 x · Cp，其中 x (k ≤ x ≤ |Q|)为查找过程中上估或已计算密度的候选区域个数。

度量模型以下分别介绍本章提出的 top-k密集区域挖掘方法的计算效率（efficiency）

和结果有效性（effectiveness）的度量标准。

在衡量计算效率方面，我们在特定参数设定下对每种方法进行 20次运行，并分别统

计其平均运行时间和（pruning ratio）。其中，剪枝率定义为被排除进行耗时的对象

出现度计算的移动对象比例。

在衡量结果有效性方面，本节采用了两个不同度量。其中，（Recall）给出了

top-k挖掘结果中为真实 top-k密集区域的比例，在 top-k挖掘的问题设定中其等价于精确

率。另一方面，Kendall 是对秩相关性的评估标准。在本章问题中，它衡量了 top-k挖

47


掘结果 φr 和真实 top-k 密集区域 φg 在排序上的相似性。假设 cp是 φr 和 φg 中位序一致

（concordant）的密集区域对 (ri�rj)的数量，位序一致即在两个排序中 ri都在 rj的前面（或

后面或平齐）。假设 dp是 φr 和 φg 中位序非一致（discordant）的密集区域对 (ri�rj)的数

量。则 Kendall系数可计算为

τ =cp− dp

0.5k(k − 1)(公式 3.1)

当两个排序的位序一致性是完美的（即它们是相同的）时，τ 等于 1。相反，如果一个排

序与另一个排序完全反向，τ 等于-1。当 φr 和 φg 不包含同一组对象时，我们对其进行轻

微修改以便进行比较。设 k = 3，φr为 ⟨A,B,C⟩，φg为 ⟨B,D,E⟩。为对两者的 Kendall系

数进行度量，可将 φr扩展为 ⟨A,B,C,D,E⟩，φg扩展为 ⟨B,D,E,A,C⟩。添加到排序中的

元素具有相同的排序值，例如元素 D和 E 在已修改的 φr 中排序值皆为 4。

3.5.2 合成数据集实验

3.5.2.1 实验设置

合成数据集通过数据生成工具集 Vita [137]产生，具体设置如下：

室内空间空间的生成采用了真实世界购物中心的平面图À，其每一楼层的标地尺寸

为 120m × 120m，包含 100个房间和 4间楼梯间。不规则的分区被分解Á成较小但规则的

部分，共产生 141个室内分区和 220扇门。我们将原始平面图进行十次复制，以生成一个

包含 1410个分区和 2200扇门的十层建筑，楼梯间被用于相邻楼层的连接。所有室内分区

由 R-tree索引，其相比于网格或其它替代技术，对任意形状和布局的分区具有更灵活的支

持。为加速搜索，根结点对 10个楼层副本进行了区分，而其它中间结点的扇出（fan-out）

设置为 20，整棵树占用约 7 MB内存。

我们采用了文献 [80]中的可达图（accessibility graph）模型和 P2D、D2P映射来表达室

内拓扑结构。这些数据结构允许我们通过 ID快速访问门和分区。具体而言，D2P (dk)将

一个门 dk映射到一对分区 pi和 pj，表示对象可通过门 dk从分区 pi到达 pj（或相反方向）。

反之，P2D(pk)将分区 pk 映射到可直接进入或离开 pk 的所有门。此外，我们对门距离矩

阵 [80]也进行了预先计算，以加快挖掘中与距离相关的操作，如判定 IBR和 ICR。

室内移动对象我们在生成的室内环境中进行了生命周期为两小时的移动对象模拟。

初始阶段，给定数量（5K至 20K）的对象被随机生成在空间中。新的对象也被逐渐添加

到空间中。每 10秒新增的对象个数符合泊松分布，期望 λ = 1。对象最大速度被设置为

Àhttps://longaspire.github.io/trips/static/floorplan-for-a-shopping-mall.pngÁ分解算法请参见文献 [85]。

48


Vmax = 1m/s，运动符合随机路点移动模型（random waypoint mobility model）[138]。在整个

模拟中，对象在每秒的精确位置被记录，并存储在对应的时空轨迹中。这些具有精确位置

和时刻的轨迹构成了实验的评估真值（ground truth）。

OIPT 实验中使用的 OIPT根据上述真值信息进行如下方式的维护：每一对象以不同

频率向 OIPT报告更新。其中，对象在报告最新位置后保持 1至 20秒的静默。对象 o的

定位报告包含时间戳 t和位置 l，其中 l为距 o在 t时刻实际位置 0.5米范围内的随机取值

点。OIPT对所有对象的定位更新进行覆盖处理。

查询区域查询集合 Q由表3.4中的三种不同类型的区域组成，每一类型各占一定比

例。Tarjan算法 [139]被用于保证 ir3类型的查询区域中来自每一分区的部分为强连通。每个

固定大小的 Q均在 10个不同 OIPT实例上测试，实验展示的结果皆为此设定下的平均值。

表 3.4 查询室内区域的类型

Table 3.4 Types of Indoor Query Regions in Q

类型意义

ir1 非完整的室内分区ir2 完整的室内分区

ir3两个及以上 ir1区域，或两个及以上 ir2区域，

或多个 ir1与 ir2区域的组合。各组成分量为强连通。

其它设定表3.5给出了合成数据实验的参数设定，其中粗体为默认值。其中，∆t =

tc− tmin为当前时刻与 OIPT最小时刻的差值，侧面反映了使用数据的老旧程度。此外，在

计算对象出现度和室内密度时，我们也使用了不同的距离衰减函数（参见3.3.3小节）。

表 3.5 合成数据实验的参数设定

Table 3.5 Parameter Settings on Synthetic Data

参数设定

k 1, 3, 5, …, 15|O| 5K, 10K, 15K, 20K

|Q| (占所有室内分区比例) 2%, …, 10%, …, 14%Q中 ir1, ir2, ir3占比 40% , 50%, 10%

∆t (s) 1, 2, …, 5, …, 10距离衰减函数 CL, LDL, I1PL, I2PL, EDL

3.5.2.2 计算效率评估

在默认参数设定下使用随机产生的查询集合，各实现方法的计算效率对比如表3.6所

示。显然，DC具有最低的运行时间与内存开销，因其直接使用 OIPT中的位置报告来计

49


算密度并略去不确定区域上的计算。然而，与其它方法和真值进行比较可发现，DC挖掘

的密集区域的质量极低，相关结果可参见3.5.2.3小节与3.5.3小节。

表 3.6 默认参数下计算效率比较

Table 3.6 Efficiency Comparison in Default Setting

算法运行时间（millisec.）剪枝率（%）内存开销（MB.）TopKIDRs1Pass 399.7 81.56 147.8TopKIDRsImprvd 365.7 85.02 156.1DC 68.5 - 2.2NLRegion 148386.2 0 342.5NLObject 2248.1 0 321.3NLwibr 1082.2 60.74 68.6NLwgbr 1597.7 34.85 51.2

在UM方法中，本章提出的两项方法明显优于所有嵌套循环的方法。与本章方法相比，

NLRegion的计算要慢几个数量级；采用搜索空间剪枝的NLwibr、NLwgbr，及NLObject则

要慢几倍。从剪枝率上可知，这是由于本章方法使用了高效的密度上下界剪枝技术，能有

效对无关移动对象进行略过。此外，TopkIDRsImprd具有比 TopkIDRs1Pass更强的剪枝能

力——同3.4.4小节进行的计算效率分析相一致。另一方面，本章方法也具有更低的内存开

销。TopkIDRsImprd相比 TopkIDRs1Pass消耗了更多内存，因其产生了更多中间数据。此

外，NLwibr需要对 IBR进行判定并维护在内存中，故相比 NLwgbr需要更多内存。

在后续实验分析中，DC方法仅在3.5.2.3小节的结果有效性评估部分进行比较；而在

计算效率评估上，本节将重点剖析 TopkIDRs1Pass与 TopkIDRsImprd方法，而略去其它低

效的 UM挖掘方法。我们将 TopkIDRs1Pass的计算开销分解为两部分： IBR ICR

的阶段（COUNT4ibcRs），以及的阶段（COUNT1Pass）。同

样，我们将 TopkIDRsImprd的计算开销分解为三部分：COUNT4ibcRs，

r 和 r 的阶段（OverCount），

以及 r 的阶段 (COUNTu)。最大堆在算法调用时构建，其开

销被涵盖在 COUNT4ibrRs中。

通过对特定参数进行调节，可分析得出以下关于算法计算效率影响因素的结论：

(1) k 值对挖掘算法计算效率的影响如图3.7所示。总体而言，增大 k 使得两种方法的运

行时间适度增加，但始终在 400 毫秒内，这一表现非常符合在线挖掘的需要。在两

种方法中，COUNT4ibcRs 对 k 不敏感，且只占总执行时间的一小部分。相比之下，

后续的 COUNT1Pass 或 OverCount+COUNTu 部分的运行时间将随 k 的增大而增加。

在这些阶段的处理中，较大的 k 将使得室内密度趋于被精确计算而不是简单上估。

50


TopkIDRsImprd的效率始终高于 TopkIDRs1Pass；前者在 COUNT4ibcRs后，采用两步

推导得到更为严格的密度上界，而后者则直接进行代价更高的密度计算。前者相比后

者的性能增益随 k值的增大而减小，这与3.4.4小节中的分析相一致。

(2) |O| 值对算法计算效率的影响如图3.8所示。在两个挖掘算法中，移动对象越多则执

行时间越长。随着 O 的增大，更多的对象可能处于固定的 IBR 与 ICR 中。因此，

COUNT4ibcRs 的执行时间相应增加。更多的对象也会提高室内区域密度计算的复杂

度，从而导致后续阶段的运行时间变长。尽管如此，在 |O|达到 20K时，两种方法仍

可在不到 771毫秒的时间内返回 top-15的结果，完全可达到在线计算的要求。

(3) |Q|值（即占所有 1410个室内分区的百分比）对算法计算效率的影响如图3.9所示，其

中 Q中各类型区域所占据比例使用表3.4中的默认值。当 |Q|增大时，两种方法的整体

运行时间显著增加。在挖掘的每个阶段，时间开销因需要处理来自 Q中的更多查询区

域而稳定增长。由于本章方法需要为 Q中的每个查询区域确定 IBR与 ICR，因此当 Q

较大时，COUNT4ibcRs的开销会稳步增大。同时，计算最终室内密度的阶段需要处理

更多候选区域，因此其成本也会增加。在 Q的规模较大时，TopkIDRsImprd的计算效

率显著优于 TopkIDRs1Pass，其性能增益同3.4.4小节中的分析依然一致。

(4) 为研究不同类型的查询区域对算法效率的影响，我们采用了由同质类型区域构成的查

询集合。Q中使用不同类型查询区域对算法计算效率的影响如图3.10所示。由于使用

ir1类型的区域将产生较小的 IBR和 ICR，其相应的开销最低。而 ir3类型的查询区域

的 IBR与 ICR判断计算过程复杂，同时会影响后续的密度计算，故其开销最高。ir2

类型的 Q，其复杂度及相应的运行时间都介于前二者之间。

(5) 在特定分析时刻对∆t进行取值（1s至 10s），其对应的运行时间结果如图3.11所示。两

种方法中，∆t的增大都会大幅拉长运行时间。较大的 ∆t不仅意味着查询区域 r需要

更大的 IBR，也意味着室内对象的不确定区域的扩大。当∆t增大时，IBR中相关对象

的数量也相应增加，这使得 COUNT4ibcRs和 OverCount的运行时间稳定增长。相反，

COUNTu 和 COUNT1Pass的开销增加得更快，这是因 IBR中对象增多及对象不确定

区域扩大的双重影响导致的。需注意的是，当∆t增大时，r的 ICR将变得更小且导致

密度下界趋近于零，这也使得 OverCount和 COUNT1Pass中涉及的可变部分的对象越

来越多。尽管如此，两种方法仍可在 920毫秒内返回 top-15的结果。这表明即使当前

OIPT中定位信息相对老旧时，我们的方法依可用于密集区域的挖掘。

(6) 图3.12展示了使用不同 DDF对挖掘密集区域效率的影响。显然，TopkIDRsImprd的整

体执行时间在所有测试中均优于 TopkIDRs1Pass。复杂的 DDF将减缓查询区域的具体

51


密度值计算。尽管如此，在其它为默认参数时，所有 DDF皆可在 400毫秒内返回密集

区域。此外，COUNT4ibcRs和 OverCount的运行时间对不同 DDF几乎不变。DDF并

不影响室内密度的上下界估计；也不影响移动对象的剪枝。

1 3 5 7 9 1 1 1 3 1 57 58 08 59 09 5

1 0 0

1 3 5 7 9 1 1 1 3 1 501 0 02 0 03 0 04 0 05 0 0

( a )

Time (

millis

ec.)

k

O v e r C o u n t C O U N T u

C O U N T 4 i b c R s C O U N T 1 P a s s

( b )

Prunin

g Rati

o (%)

k

T o p k I D R s I m p r d T o p k I D R s 1 P a s s

图 3.7 k对计算效率的影响

Figure 3.7 Efficiency vs. k

5 K 1 0 K 1 5 K 2 0 K7 5

8 0

8 5

9 0

5 K 1 0 K 1 5 K 2 0 K0

2 0 0

4 0 0

6 0 0

8 0 0 ( a )

Time (

millis

ec.)

| O |




( b )

Prunin

g Rati

o (%)

| O |

图 3.8 O对计算效率的影响

Figure 3.8 Efficiency vs. |O|

2 4 6 8 1 0 1 2 1 47 58 08 59 09 5

1 0 0

2 4 6 8 1 0 1 2 1 401 0 02 0 03 0 04 0 05 0 06 0 07 0 0 ( a )

Time (

millis

ec.)

| Q | ( % )



( b )

Prunin

g Rati

o (%)

| Q | ( % )


图 3.9 |Q|对计算效率的影响Figure 3.9 Efficiency vs. |Q|

2 4 6 8 1 0 1 2 1 40

2 0 0

4 0 0

6 0 0

8 0 0

2 4 6 8 1 0 1 2 1 46 57 07 58 08 59 09 5

1 0 0

( a )Tim

e (mi

llisec

.)

| Q | ( % )

T o p k I D R s I m p r d - i r 1 T o p k I D R s I m p r d - i r 2 T o p k I D R s I m p r d - i r 3 T o p k I D R s 1 P a s s - i r 1 T o p k I D R s 1 P a s s - i r 2 T o p k I D R s 1 P a s s - i r 3( b )

Prunin

g Rati

o (%)

| Q | ( % )

图 3.10 Q中区域类型对计算效率的影响

Figure 3.10 Efficiency vs. Types in Q

1 2 3 4 5 6 7 8 9 1 07 58 08 59 09 5

1 0 0

1 2 3 4 5 6 7 8 9 1 01 0 0

1 0 1

1 0 2

1 0 3

( a )

Time (

millis

ec.)

∆t ( s )



( b )

Prunin

g Rati

o (%)

∆t ( s )


图 3.11 ∆t对计算效率的影响

Figure 3.11 Efficiency vs. ∆t

C L L D L I 1 P L I 2 P L E D L01 0 02 0 03 0 04 0 05 0 0

Time (

millis

ec.)

D i s t a n c e D e c a y i n g F u n c t i o n s



图 3.12 DDF对计算效率的影响Figure 3.12 Efficiency vs. DDF

3.5.2.3 结果有效性分析

根据3.5.2.1小节中介绍的轨迹真值，本小节对上述方法的 top-k 密集区域挖掘结果进

行有效性验证。由于 UM挖掘算法返回相同的结果，此处分析仅对 TopkIDRsImprd进行。

为降低由定位结果引起的偏差（bias），在每个分析时刻 tc，我们通过随机改动移动对象

的报告位置来生成 20 个不同 OIPT 实例。在 10 个随机选取的分析时刻，我们分别运行

TopkIDRsImprd（以下表示为 UM）和 DC方法，比较其在相同设定下的平均有效性度量。

通过对特定参数进行调节并评估其对挖掘结果有效性的影响，可分析得出以下结论：

(1) 在其它参数不变的情况下，我们调节不同的 k值（从 3到 15）和不同的 |O|值（从 5K

到 20K），其对应的结果有效性度量如图3.13所示。根据图3.13(a)可知，DC和 UM的

52


Kendall系数都随 k的增大而适度增大。总体而言，在所有测试中，DC的 Kendall系数

都低于-0.13。相比之下，本章方法的 Kendall系数在 k ≥ 9时始终大于 0.68，这意味着

本章方法的挖掘结果与真值保持高度一致。另一方面，由于数据的随机性，室内对象

数量即 |O|仅会导致两种方法的 Kendall系数产生波动。这也说明，本章提出的 top-k

挖掘方法是可扩展的。根据图3.13(b)可知，对大多数测试结果，我们的 top-k 挖掘的

召回率均高于 0.86，而 DC的召回率总小于 0.31。我们的方法在绝大多数情况下都能

返回几乎所有的真实密集区域。对于固定的 |Q|值，较大的 k倾向于在 top-k结果中包

含更多的真值。因此，当实验中 k值增大时，两个有效性度量均会得到提升。

(2) 同样保持其它参数不变，不同∆t值（从 1s到 9s）和不同 |Q|值（比例从 2%到 14%）

下的结果有效性度量如图3.14所示。显然，当 |Q|增大时，UM方法的 Kendall系数和

召回率都出现了下降。当 Q中有更多区域时，搜索空间更大，更多的不确定区域和密

度将需要被计算和排序。因此，排序后挖掘结果的有效性将降低。根据图3.14(a)可知，

Kendall系数随 ∆t的减小而略有下降，但始终保持在 0.72以上。越大的 ∆t产生越大

的对象不确定区域，使得基于不确定区域计算的密度排名往往不太接近真实情况。根

据3.14(b)可知，本章方法的召回率总体上随 ∆t的增大而降低，但始终高于 0.91。因

此，即使 OIPT包含未更新的老旧定位信息，我们的方法在挖掘正确密集区域方面也

非常有效。此外，由于 DC忽略了位置的时空不确定性，其对应的两项度量都非常低。

(3) 图3.15进一步展示了当 ∆t从 1s到 9s变化时不同查询区域类型对结果有效性的影响。

可以发现，UM在两项度量上均显著地超过 DC，并且其在测试上性能表现都非常优

异。其中，UM的 Kendall系数始终高于 0.79，其召回率始终高于 0.92。因此，在不同

的查询区域类型上，我们的挖掘结果都非常有效。有趣的是，在 UM方法中，处理 ir3

类型区域时的 Kendall系数略高于其它类型。这表明，我们提出的方法性能稳定，不

会受到查询区域的组成变化的较大影响。另一方面，可以发现，增大 ∆t会轻微降低

UM方法返回结果的有效性，但几乎不会对 DC方法产生影响。

(4) 图3.16则展示了使用不同距离衰减函数对 TopkIDRsImprd方法产生的影响。一方面，由

于均匀分布的 URI(loc)假设不能良好地反映出室内对象的不确定移动情况，因此 CL

方法仅获得 0.22的 Kendall系数得分。相比之下，函数 LDL、I1PL和 I2PL的 Kendall

系数分别达到 0.59、0.79和 0.58。默认设定的 EDL函数则表现最好，Kendall系数高

达 0.82。另一方面，EDL 在召回率度量上仍然是最好的。这些结果表明，通过考虑

URI(loc)中的距离衰减效应，我们的 top-k 密集区域挖掘的有效性得以显著提升。特

别地，将复杂的 EDL函数引入到对象出现度和室内区域密度的计算中显然是值得的。

53


3 6 9 1 2 1 5- 1 . 0- 0 . 8- 0 . 6- 0 . 4- 0 . 20 . 00 . 20 . 40 . 60 . 81 . 0 ( a )

Kend

all Co

efficie

nt

k

| O | = 5 K D C | O | = 1 0 K D C | O | = 2 0 K D C | O | = 5 K U M | O | = 1 0 K U M | O | = 2 0 K U M

3 6 9 1 2 1 50 . 00 . 20 . 40 . 60 . 81 . 0 ( b )

Reca

ll

k

图 3.13 k和 |O|对结果效力的影响Figure 3.13 Effectiveness vs. k and |O|

1 3 5 7 9- 1 . 0- 0 . 8- 0 . 6- 0 . 4- 0 . 20 . 00 . 20 . 40 . 60 . 81 . 0 ( a )

Kend

all Co

efficie

nt

∆t ( s )

| Q | = 8 % D C | Q | = 1 0 % D C | Q | = 1 2 % D C | Q | = 8 % U M | Q | = 1 0 % U M | Q | = 1 2 % U M

1 3 5 7 90 . 00 . 20 . 40 . 60 . 81 . 0 ( b )

Reca

ll

∆t ( s )

图 3.14 ∆t和 |Q|对结果效力的影响Figure 3.14 Effectiveness vs. ∆t and |Q|

1 3 5 7 9- 1 . 0- 0 . 8- 0 . 6- 0 . 4- 0 . 20 . 00 . 20 . 40 . 60 . 81 . 0 ( a )

Kend

all Co

efficie

nt

∆t ( s )

i r 1 D C i r 2 D C i r 3 D C i r 1 U M i r 2 U M i r 3 U M

1 3 5 7 90 . 00 . 20 . 40 . 60 . 81 . 0 ( b )

Reca

ll

∆t ( s )

图 3.15 ∆t和 Q中区域类型对结果效力的影响

Figure 3.15 Effectiveness vs. ∆t and Types of Q

C L L D L I 1 P L I 2 P L E D L0 . 00 . 20 . 40 . 60 . 81 . 0

Meas

ureme

nt


R e c a l l K e n d a l l C o e f f i c i e n t

图 3.16 DDF对结果效力的影响Figure 3.16 Effectiveness vs. DDF

3.5.3 真实数据集实验

本节使用了从大学办公楼中收集的真实定位数据来评估本章方法挖掘结果的有效性。

用于实验的室内空间标地尺寸为 33.9m × 25.9m，包含 14个室内分区和 16扇门。部署的

室内定位系统采用指纹定位算法，其长期的定位精度约为 4米。收集的真实数据集包括 35

位日常携带移动设备的用户的定位结果及对应真值。根据实际的空间利用情况，我们使用

ir2类型的室内查询区域。由于室内分区个数较少，在参数设定中，我们将 k值设为 5，并

调节 ∆t值（从 3s到 8s）和 |Q|值（从 40%到 100%，即 6到 14个查询区域）。

通过变量控制方法，本节对 UM和 DC的结果进行了比较分析，得出以下实验结论：

(1) 图3.17给出了不同 ∆t和 |Q|对挖掘结果效力的影响。显然，本章提出的 UM方法的

两种有效性度量在所有测试中均明显优于 DC方法。当 |Q| = 40%时会发生有趣的现

象：此时仅有的六个查询区域中的五个被返回，因此 DC的 Kendall系数和召回率都

非常高。但当 |Q|继续增大时，这两项度量指标都迅速下降。仔细查看 UM的有效性

度量可发现，随着 |Q|的增大——挖掘过程引入更多查询区域，其 Kendall系数相应

减小。尽管如此，当所有分区都用作查询区域时，Kendall系数非常接近 0.7。另一方

面，Kendall系数随 ∆t的增大而减小。当 ∆t增大时，对象不确定区域变大，这降低

了密集区域挖掘中计算密度的精确度，因而结果效力往往会下降。UM方法的召回率

如图3.17(b)所示。同样，较大的 |Q|在挖掘中涉及更多的候选区域，较大的 ∆t则会

导致更大的不确定区域。这两个因素使得找到 top-k 密集区域变得更加困难，因此召

回率降低。尽管如此，即便所有分区都用作查询区域，UM的召回率仍然在 0.78附近。

54


(2) 我们将参数固定为 k = 5、|Q| = 40%以及 ∆t = 5s，测试不同 DDF对结果效力的影

响，结果如图3.18所示。显然，由于假定均匀分布的不确定区域过于简单化，使用 CL

函数会导致挖掘结果的有效性很低。有趣的是，与 EDL函数相比，I1PL函数可得到相

当的 Kendall系数得分和更高的召回率。这是由于本节测试的大学办公楼环境相对较

小，并且存在众多障碍物，创建了许多不同长度的固定室内通道，这使得 I1PL函数非

常擅长捕捉数据收集参与者的移动与距离衰减的关系，能够逼近更为复杂的 DDF模

型。总体上，默认的 EDL函数仍然在实现有效挖掘结果方面表现得最为优异。

3 4 5 6 7 8- 1 . 0- 0 . 8- 0 . 6- 0 . 4- 0 . 20 . 00 . 20 . 40 . 60 . 81 . 0 ( a )

Kend

all Co

efficie

nt

∆t ( s )

| Q | = 4 0 % D C | Q | = 7 0 % D C | Q | = 1 0 0 % D C | Q | = 4 0 % U M | Q | = 7 0 % U M | Q | = 1 0 0 % U M

3 4 5 6 7 80 . 00 . 20 . 40 . 60 . 81 . 0 ( b )

Reca

ll

∆t ( s )

图 3.17 ∆t和 |Q|对结果效力的影响 [真实数据集]Figure 3.17 Effectiveness vs. ∆t and |Q| on Real Data

C L L D L I 1 P L I 2 P L E D L0 . 00 . 20 . 40 . 60 . 81 . 0

Meas

ureme

nt


R e c a l l K e n d a l l C o e f f i c i e n t

图 3.18 DDF对结果效力的影响 [真实数据集]Figure 3.18 Effectiveness vs. DDF on Real Data

3.6 本章小结

本章提出并解决了从用户自定义的室内区域集合中挖掘当前时刻的 top-k密集区域的

问题。本章方法使用了具有时空不确定性的快照室内定位数据，其中仅包含了每个移动对

象的最新室内位置报告。我们首先对室内密度的定义和计算模型进行了合理设计，可以适

应由离散的、老旧的室内定位结果引起的移动对象位置的不确定性。随后，我们对密集区

域挖掘计算中涉及数据的不确定性进行了全面分析，推导得出了室内区域密度的有效上

界和下界，并在密度计算中引入了新型的距离衰减函数。利用分析的结果，我们设计了高

效的 top-k密集区域挖掘算法。最后，我们使用合成数据集和真实数据集对提出的方法进

行了全面的实验评估。结果表明，我们提出的室内密集区域挖掘算法是高效、可扩展及有

效的。尽管本章方法只使用了存在不确定性的在线移动数据，且不对室内对象移动的额外

知识进行假设，挖掘得到的 top-k室内密集区域仍能与真实情况保持高度的一致。

55

浙江大学博士学位论文第四章室内流量分析挖掘方法


4.1 引言

近年来，智能移动终端 [4,5]和室内位置服务相关的基础设施 [6]都取得了长足的提高和

发展，得以进一步普及。另一方面，携带智能设备的用户有近 90%的时间都是在室内空

间度过的 [1–3]。因这两方面因素的共同作用，人们的室内移动行为被愈来愈多地记录下来，

产生了大量可用的室内移动数据。正如本文第二章给出的介绍，这些移动数据因其使用的

室内定位技术的不同情况而格式迥异。

类似于使用室外 GPS轨迹数据进行的工作，对室内移动数据进行适当分析可发现一

些此前近乎不可能获得的有用知识。给出一个典型的例子：通过分析历史移动数据，我们

可获知在过去特定时间范围内通过特定室内区域的人数——即（Indoor Flow）。该

信息具有重大的应用价值，例如在基于位置的广告推荐 [30]和室内资源优化 [24]等场景中。

针对室内流量分析的问题，本章研究了在特定时间段内具有最大流量的热点

（Indoor Semantic Locations）的挖掘问题。解决该问题在许多相关的室内场景中十分

有用。例如，所讨论的室内语义位置可以是大型展览中放置不同展品的区域。流量最高的

区域意味着其展出的物品最受欢迎，找出它们并可用于向后续参观者进行展品的推荐优

化；室内语义位置亦可是大型购物中心中的各个店铺，了解流量大的语义位置对商场管理

是有益的，譬如制定商铺的租赁费用方案。

相较第三章研究的采样稀疏的在线移动数据，本章研究的历史移动数据在观测上同样

存在着不确定性。简而言之，某一移动对象在过去时刻 t的定位信息由格式为 (loc, prob)

的一组样本（samples）表示。这种类型的采样意味着对象在 t时刻位于 loc位置的概率为

prob。请注意，此处的 loc是一个（point location），而上述的室内语义位置是一个

（region location）。4.2.1节将进一步给出二者的区别。

上述数据格式常在基于无线基础设施的室内定位服务中看到。例如，在Wi-Fi指纹定

位 [36]中，一种基于加权 k近邻（WkNN）的位置估计算法 [46]会将定位结果表示为 k个空

间中预定义的参考点（reference point）和每个参考点的对应概率。在Wi-Fi Sniffing [30,58,60]

过程中，由多个接入点（Access Point，AP）收集的位置信息都可表达为带有概率的位置

样本。采用这种数据格式的目的，是为了实现更好的整体定位效果。在实际的室内定位场

57

第四章室内流量分析挖掘方法浙江大学博士学位论文

景中，AP主要用于组建无线局域网，因而无线信号强度的测量精度往往受到部署 AP的

技术规格的限制 [30,36]。此外，无线信号还对诸如温度、湿度、AP部署条件等环境因素高

度敏感 [34,140]，在动态变化的复杂室内环境中，无线信号的波动极大且很不稳定。为应对

上述问题，在位置报告中使用概率样本是一种自然的选择，可使位置报告更为鲁棒 [46,103]。

总体上，本章研究的面向时空不确定移动数据的室内流量分析挖掘问题主要面临两方

面技术挑战：

(1) 第一个挑战是如何对室内语义位置的流量值进行可靠有效的分析计算。一方面，

室内移动数据固有的不确定特点使得每个区域内的对象个数无法直接算出。由于

在某一特定时刻可能存在多个定位样本，用于分析的移动数据具有多个可能。此

外，在没有对应移动数据的时间段上，我们不能获知移动对象的的真实位置信息。

另一方面，室内空间特有的实体元素如墙壁、门、房间等，共同创建了复杂的室

内拓扑结构，间接地导致了独特的室内移动特点。因此，计算室内流量时必须适

当考虑室内拓扑结构的特殊性。请注意，上述提及的时空不确定性在复杂室内拓

扑环境下生效，使得流量的分析计算变得更加复杂。综上可知，对室内语义位置

的流量计算建模必须适当地考虑时空不确定性与室内拓扑等因素。

(2) 第二个挑战则来自于流量分析中繁重的计算工作量。在本章问题设定中，空间中

特定语义位置的流量分析需考虑到所有被观测到的移动对象及其在许多特定时刻

的位置样本，复杂度极高。因此，必须适时地找到仅与目标计算对象相关的数据

部分，并借助高效准确的计算策略来加快室内热点语义位置的分析挖掘过程。

本章提出了一系列新型的分析挖掘技术来应对以上挑战。首先，通过充分考虑移动数

据的时空不确定性和室内拓扑结构的约束，我们设计有效的室内流量定义及计算模型。给

定时间段 [ts, te]，我们从 [ts, te]中相关的定位样本中识别出对应移动对象所有可能的室内

路径（possible indoor paths）。在此基础上，室内语义位置的流量可根据经过该位置的此类

路径的数量来计算。其次，我们设计了高效的数据结构来建立原始室内定位数据与室内拓

扑的关联，这些结构将大大加速流量计算中相关数据的读取。其三，我们设计了有效的数

据归约方法，可显著减少需要考虑的可能室内路径的数量，从而使室内流量的计算效率产

生几个数量级的提升。其四，通过使用上述数据结构和数据归约方法，我们提出了对应的

算法来挖掘具有最高流量值的 top-k热点室内语义位置。我们提出的最优搜索算法能快速

地排除与热点语义位置的流量计算无关的移动对象。我们采用真实数据集与合成数据集

对提出的方法进行了全面验证。结果表明，我们的整体解决方案是高效且可扩展的。此外，

我们的挖掘算法亦能给出与真实情况保持高度一致的热点室内语义位置结果。

58


概括而言，本章研究工作的主要贡献如下：

(1) 本章提出了一项适用于室内对象位置不确定性的室内流量定义，并形式化地阐述

了挖掘具有最高流量值的 top-k室内热点语义位置的问题。

(2) 本章设计了一套完整的方法用于高效计算单个室内语义位置的流量值，包括：用

于读取计算相关移动数据的高效数据结构、用于降低中间计算数据规模的有效数

据规约方法，和总体的室内流量计算算法。

(3) 在室内流量计算方法的基础上，本章设计了高效算法来挖掘特定时间范围内具有

最高流量值的 top-k热点语义位置。

(4) 本章同时采用真实数据集和合成数据集对提出的方法进行了全面的实验评估，并

充分验证了提出方法的有效性、高效性和可扩展性。



表 4.1 室内流量分析挖掘方法符号表

Table 4.1 Notations for Indoor Flow Analysis and Mining Approach

符号意义

o ∈ O 室内移动对象p, loc ∈ LP 室内定位位置（indoor P-location）c ∈ C 室内空间单元（indoor cell）s ∈ LS 室内语义位置（indoor S-location）q ∈ Q 查询室内语义位置X 定位记录中的样本集合（sample set）πl(X) X 的室内定位位置集合X = (X1, . . . , Xn) 样本集合定位序列ϕ = (loc1, . . . , locn) 移动对象的（可能）室内路径ϕ⇝ q 路径 ϕ通过语义位置 q

4.2.1 室内空间位置

室内空间可被实体元素（如墙壁和门）自然划分为室内分区（indoor partition），如房

间、走廊或楼梯等。为简单起见，本章方法的叙述将走廊或楼梯视为房间，在概念也不对

“室内分区”和 “房间”加以特别区分。我们对上节中提及的两种室内位置进行正式介绍：

• （semantic location，以下简称 S-location）是指由用户自定义并与分析人员

的特定兴趣相关的区域位置。这类位置通常与一些实际语义相关联，如办公楼中的

大厅，大型购物商场中的急救站等。

59


• （positioning location，以下简称 P-location）是指由室内定位系统返回的点

位置。与连续采样的 GPS经纬坐标不同，室内定位返回的 P-location是较为离散的，

并通常是从一组预定义的位置中选取的 [137]。这种定位离散性通常是因对定位空间

进行勘测（site survery）的人力限制所导致的（参见2.1.1小节）。例如，在指纹定位

系统的离线校准阶段，用于训练的信号特征数据仅在预先选择的一组参考点中进行

采集。在随后的定位阶段，采集到的信号向量与当前状态最为匹配的几个参考点将

作为当前可能的位置被返回。

我们使用 LP 和 LS 来分别表示 P-location和 S-location的集合。根据室内空间的拓扑

结构，我们可进一步将 P-location划分为两个子类别：

• 一组 P-location（partitioning P-location）共同将室内空间分隔为不同的

（cells）À，任一移动对象从其中一个单元到另一单元时都必定通过这组分隔 P-location

中的某一个；

• 相反，一个 P-location（presence P-location）不对空间进行分隔，仅表示一个移

动对象出现在该点附近。

示例 4.1 4.1 6 r1-r5

r6 region of interest S-location 4

9 P-location p4 p9

p4 p9 c1 r1 r2

c1 p4 p9 r6 p6

p8 c1 p7 P-location

7r3

o2 o1

o3

r2 r1

r6r5r4

3

6

8

P-location p6

r1 partitionr6

doordoor cell

object true locationobject true location

trajectorytrajectory

direct connectiondirect connection

2

c1

c5

c1c1

1

4 9

5 6

图 4.1 室内空间与位置示例

Figure 4.1 An Example of Indoor Space and Locations

À本章定义的室内单元可以为一个室内分区（indoor partition）或多个相邻室内分区的组合。

60



同文献 [46,58,85,103] 的数据设定一致，本节研究的室内移动数据为一种不定期报告的室

内定位记录 (oid, X, t)，其中 oid标识一个对象，X是一个定位样本集合（positioning sample

set），t是一个时间戳，该三元组表示移动对象在时刻 t的位置由样本集合 X 进行表达。

样本集合X 中的每个元素 e的格式都为 (loc, prob)，表示对象位于 loc这一 P-location

的概率为 prob。对于任一对象和任一报告时间，对应 X 中始终有∑

e∈X e.prob = 1。这种

基于样本的方法因其在动态变化室内环境中的定位鲁棒性，常在实际系统 [36,46,140] 中被采

用。给定样本集合 X，我们用 πl(X)来表示其 P-location集合 {e.loc | e ∈ X}。

对于给定的目标室内空间，室内对象的历史定位记录被存储在

（Indoor Uncertain Positioning Table，IUPT）中。与图4.1对应的一个可能的 IUPT实例如

表4.2所示。每个对象的移动情况都由不同报告时刻的一组可能位置样本进行建模。例如，

对象 o2的 P-location集合 πl(X)在 t1时刻为 {p1, p2}，而在 t3时刻则变为 {p2, p4}。

表 4.2 室内不确定定位结果表

Table 4.2 Indoor Uncertain Positioning Table

oid , X , t oid , X , t

o1 , {(p4, 1.0)} , t1 o1 , {(p8, 1.0)} , t4o2 , {(p1, 0.5), (p2, 0.5)} , t1 o2 , {(p5, 0.3), (p6, 0.6), (p8, 0.1)} , t5o3 , {(p2, 0.6), (p3, 0.4)} , t2 o3 , {(p2, 0.4), (p3, 0.6)} , t5o1 , {(p9, 1.0)} , t3 o2 , {(p5, 0.2), (p6, 0.3), (p8, 0.5)} , t6o2 , {(p2, 0.7), (p4, 0.3)} , t3 o3 , {(p3, 1.0)} , t8

4.2.3 问题定义

给定一个 S-location q，研究其在过去时间段 [ts, te]内通过的移动对象的数量将十分有

用。由于对象的移动数据存在时空不确定性，因而无法直接或精确地为 q 进行对象计数。

本节针对时空不确定移动数据的特点，设计了一种替代的室内密度计算方案。为简单起

见，本节假设 ts和 te与室内定位中的采样时间点是对齐的。

首先，我们给出了（uncertainty-aware object presence）的

定义，其计算方法如下：

(1) 根据给定时间段 [ts, te]，我们首先获得一个移动对象 o 的样本集合序列 X =

(X1, . . . , Xn)，其中 X1对应于 ts，Xn对应于 te（n ≥ 2）；

(2) 考虑对所有相关的 P-location集合进行笛卡尔积操作，我们得到该对象所有的可

能路径，即 πl(X1)× . . .× πl(Xn)。理论而言，可能路径的总数可能极大，我们可

61


根据室内拓扑结构去除无效的候选路径（invalid candidates），并获得一组有效的

可能路径。具体细节将在4.3.3节给出；

(3) 对每条可能路径 ϕi = (loci1, . . . , locin) ∈ P，我们按照以下方式计算其概率：pri =∏

1≤j≤n probij，其中 probij 表示对应样本集合 Xj 中 P-location locij 的概率值；

(4) 给定一个 S-location q ∈ LS，令 prϕi⇝q为路径 ϕi对 q的（pass probability），

则移动对象 o在 q中的（presence）可定义为：

Φts,te(q, o) =

∑ϕi∈P (prϕi⇝q · pri)∑

ϕi∈P pri(公式 4.1)

对于 S-location q和室内路径 ϕ = (loc1, . . . , locn)，其二者相关的通过概率 prϕ⇝q 可经

如下方式进行计算：

(1) 对于 ϕ 中任意一对连续 P-location 对 (locj, locj+1)，我们查找一组能包含 locj 到

locj+1 的（direct connection）的室内单元，对应集合记为 C。P-location

对 (locj, locj+1)通过 q的概率可定义为 prlocj ,locj+1⇝q =|{c∈C|c covers q}|

|C| 。4.3.1.2小节

将介绍专门的数据结构，以通过给定 P-location对 (locj, locj+1)找到对应的室内单

元集合 C；

(2) 排除 ϕ中任意连续 P-location对都不通过 q的概率，ϕ对于 q的可计算为：

prϕ⇝q = 1−∏

1≤j≤n−1(1− prlocj ,locj+1⇝q) (公式 4.2)

公式 4.2的通过概率始终满足 prϕi⇝q ≤ 1。因此根据公式 4.1可知，对任意 S-location q

和任意移动对象 o，Φts,te(q, o) ≤ 1始终成立。

示例 4.2 4.2 o3 [t1, t8] 4 ϕ1 = (p2, p2, p3)

ϕ2 = (p2, p3, p3) ϕ3 = (p3, p2, p3) ϕ4 = (p3, p3, p3) 0.24 0.36

0.16 0.24 ϕ1 0.6 × 0.4 × 1.0 = 0.24 ϕ1

P-location (p2, p2) (p2, p3) (p2, p2)

r6 r4 4.1 prp2,p2⇝r6 =

prp2,p2⇝r4 = 1/2 (p2, p3) prp2,p3⇝r4 = 1 prp2,p3⇝r6 = 0 4.2

prϕ1⇝r6 = 1−(1−1/2) ·(1−0) = 0.5 prϕ2⇝r6 = prϕ3⇝r6 = prϕ4⇝r6

= 0 4.1 Φt1,t8(r6, o3) = 0.5 · 0.24 = 0.12 S-location r1

o3 r1 Φt1,t8(r1, o3) = 0

62


在对象出现度的定义之上，我们可以估算出现在特定 S-location中移动对象的个数期

望值，并相应地对进行定义。

定义 4.1 (室内流量) S-location q ∈ LS O [ts, te]

q Θts,te,O(q) =∑

o∈O Φts,te(q, o)

示例 4.3 4.2 3 o1, o2, o3 ∈ O 4.2 o3

o1 o2 o1 (p4, p9, p8)

4.1 4.2 Φt1,t8(r1, o1) = 0.5 Φt1,t8(r6, o1) = 1 o2

Φt1,t8(r1, o2) = 0 Φt1,t8(r6, o2) = 0.85 S-location

r6 Θt1,t8,O(r6) =∑

1≤i≤3 Φt1,t8(r6, oi) = 1+ 0.85+ 0.12 = 1.97 r1

Θt1,t8,O(r1) =∑

1≤i≤3 Φt1,t8(r1, oi) = 0.5 + 0 + 0 = 0.5

本章的研究问题定义如下：

问题 4.1 (Top-k热点语义位置挖掘) Q

IUPT O [ts, te] top-k室内热点语义位置挖掘

k Qk ⊆ Q ∀q ∈ Qk,∀q′ ∈ Q \Qk,Θts,te,O(q) ≥ Θts,te,O(q′)

示例 4.4 4.1 Q = {r1, r6} Θt1,t8,O(r1) = 0.5 < Θt1,t8,O(r6)

= 1.97 top-1 r6 [t1, t8] 大

4.2.4 技术路线

为解决上述问题，本章给出了如图4.2所示的技术路线图，其包括室内语义位置流量

计算和热点语义位置挖掘算法两个部分，将分别在4.3节和4.4节中进行阐述：(1)在流量计

算技术中，我们首先根据室内定位位置和室内语义位置构建重要的数据结构，并设计数据

规约方法来处理 IUPT中的样本序列；基于以上数据结构和数据规约方法，我们对总体的

流量计算算法进行了设计。(2)在热点语义位置挖掘算法的设计中，我们分别使用了循环

嵌套和最佳优先搜索的策略来查找最终的 top-k热点语义位置。

室内语义位置的流量计算技术

流量计算算法

室内空间及位置

室内空间位置数据结构

数据规约方法

策略一循环嵌套

策略二最佳优先搜索

热点位置挖掘算法

移动约束

样本序列

Top-k

结果

候选语义位置集合Q

IUPT

语义位置单个语义位置的流量值

图 4.2 Top-k室内热点语义位置挖掘的技术路线Figure 4.2 The Roadmap for Finding the Top-k Indoor Popular Semantic Locations

63


4.3 室内语义位置的流量计算方法

本节将阐述对单个室内语义位置的流量进行高效计算的方法。其中，4.3.1小节对加速

数据读取和计算的数据结构进行了详细介绍，4.3.2小节提出了降低待处理数据规模的数据

规约方法，4.3.3小节则给出了室内语义位置流量计算的总体算法。

4.3.1 室内空间位置图和室内位置矩阵

本章的问题定义（参见4.2.3节）牵涉到由 P-location构成的可能室内路径，但查询的

集合却在 S-location上进行定义。为了能够估算出一条路径通过一个 S-location的概率，我

们需要在室内拓扑信息的基础上对两种室内位置间的关系进行正确构建。为此，我们首

先在4.3.1.1小节中设计了（Indoor Space Location Graph），将 P-location、

S-location和室内单元组织到一个室内空间的拓扑模型中。随后，我们在4.3.1.2小节中设计

了（Indoor Location Matrix），以便于搜索与路径中两个连续 P-location相关

的室内单元和 S-location。

4.3.1.1 室内空间位置图

室内空间位置图 GISL对文献[79]提出的 RFID部署图（deployment graph）进行了概念

推广，以容纳本章所讨论的两类室内位置。通过在室内单元层面对室内空间的拓扑连通性

进行表述，GISL可定义为标号图 (C, E, ℓe)，其中：

(1) C 为顶点集合。每个顶点对应于一个室内单元 c，c 可由4.2.1小节中所述的分隔

P-location划分得到；

(2) E 为边集合，即 E = {⟨ci, cj⟩ | ci, cj ∈ C}；

(3) ℓe : E → 2LP 将一条边映射到一组 P-location 上。具体而言，当 ci = cj 时，边

⟨ci, cj⟩ ∈ E 表示室内单元 ci 和 cj 是相连的，即不存在对象可从 ci 进入 cj（或相

反方向）而不涉及第三个室内单元。在此情况下，ℓe(⟨ci, cj⟩)给出了导致单元 ci和

cj 划分的一或多个分隔 P-location。对于图中的一条循环边 ⟨ci, ci⟩ ∈ E，ℓe(⟨ci, ci⟩)

则给出了完全被单元 ci覆盖的一组出现 P-location。

图4.3展示了同图4.1示例相对应的室内空间位置图。我们使用两个映射结构来帮助室

内单元和 S-location 间的查找。C2S : C → 2LS 将一个室内单元映射为一组其包含的 S-

location，而 Cell : LS → C 则将一个 S-location映射为包含其的一个（parent cell）。

给定一个移动对象的可能路径 ϕ，当其父单元 Cell(q)通过 S-location q时，我们认为其也

通过了该 S-location。这一方式简化了对象对 S-location q的通过概率的计算。本章阐述的

64


方法，假定一个 S-location仅与一个父单元相对应，但我们的映射结构和相关技术都可进

行扩展，以应对单个 S-location与多个室内单元有关的复杂情形。

c1c6

c5 c4 c3

p4, p9p6, p8

p1

p5

p3

p2p7

{ r1, r2 }r3

r4

r5

r6

Cells S-locations

c4

c5

c6

图 4.3 室内空间位置图

Figure 4.3 Indoor Space Location Graph

上述数据结构可同时读取 S-location和室内单元。其中，S-location可支持应用级别的

定制，而室内单元则专门服务于通用的室内流量计算。这一设计的优点是将特定用户需求

与室内移动数据上的基础计算相分离。当需求变更用户应重新定义 S-location集合时，本

章方法仅需重构相应映射结构而无需涉及对最底层的流量计算方法的修改。室内空间位

置图可定义为有向图，以支持带方向限制的门（如地铁闸机）。本章对这些细节进行省略，

仅使用无向图进行技术方法的阐述。

4.3.1.2 室内位置矩阵

为判定一个 S-location（或其父单元）是否被给定 P-location序列（即一条路径）通过，

我们定义如下形式的室内位置矩阵MIL：其为一个N ×N 的上三角矩阵À，其中N = |LP |

表示空间中 P-location的总数。给定两个不同的 P-location pi, pj ∈ LP，以下性质成立：

(1) 当 pi 为分隔 P-location时，MIL[pi, pi]给出 pi 相邻的室内单元。相反，当 pi 为出

现 P-location时，MIL[pi, pi]给出包含 pi的室内单元；

(2) 当 pi与 pj 直接相连（连线不涉及任何其它 P-location和室内单元）时，MIL[pi, pj]

给出一组从 pi连接到 pj 可能经过的室内单元；

(3) 当 pi与 pj 不直接相连时，MIL[pi, pj] = ∅。即，从 pi到 pj 必须要经过一个以上的

室内单元。

参照图4.1的示例，图4.4展示了其对应的室内位置矩阵。其中，MIL[p4, p9] = {c1, c6}，

这是因室内单元 c1 和 c6 都连接到 P-location p4 和 p9。任一对象都可从 p4 到达 p9（或反

向）而无需离开 c1或 c6。也即，当连续观测到带有 p4和 p9的定位样本时，我们可以推测

出对应移动对象必在 c1或 c6中。对于出现 P-location p8可知MIL[p8, p8] = c6，这是因为 p8

À在考虑门的方向性的情况下，其为一个完整的矩阵。

65


在室内单元 c6 的内部。另一方面，MIL[p3, p4] = ∅意味着从 p3 到 p4 没有直接路径相连。

事实上，移动对象必须通过单元 c4和 c6才能从 p3到达 p4。室内位置矩阵可简单利用GISL

中记录的拓扑连通信息进行构建。 55

p1 p2 p3 p4 p5 p6 p7 p8 p9

p1 {c4,c5} c4 c4 ∅ c5 ∅ ∅ ∅ ∅p2 {c4,c6} c4 c6 ∅ c6 ∅ c6 c6p3 {c3,c4} ∅ ∅ ∅ ∅ ∅ ∅p4 {c1,c6} c6 c6 c1 c6 {c1,c6}p5 {c5,c6} c6 ∅ c6 c6p6 c6 ∅ c6 c6p7 c1 ∅ c1p8 c6 c6p9 {c1,c6}

Figure 3. Indoor Location Matrix

constructing MIL, we say pi and pj are equivalent P-locations,denoted by pi ≡ pj . Referring to the example in Figure 1, fora given P-location p4, we find p6 ≡ p8 in searching c6 andp4 ≡ p9 in searching {c1, c6}. To eliminate such redundancy, wecan merge those equivalent P-locations sharing a common edge inGISL, and construct a new M -by-M matrix 3, where M = |E|is the number of edges in GISL and M ≤ N . By this merge, wecan downsize MIL and consequently reduce the scalability of thepossible paths to be generated. More details of this merge are tobe given in Section 3.4.

3.3 Algorithm

Now we are able to compute the indoor flow values for individualS-locations. We use a B+-tree to index the indoor uncertainpositioning table on its time attribute (see Table 2). Given an S-location q and a time interval [ts, te], Algorithm 1 fetches thepositioning records within [ts, te] (line 1), inserts them into ahash table (lines 2–4), and obtains q’s flow by going through allobject positioning records that are temporally relevant (lines 5–21). In particular, for each object, the algorithm forms the pathset P using all the sample sets (lines 7–15) according to the waydescribed in Section 2.3. It uses the indoor location matrix MIL todetermine those possible indoor paths (lines 14–15). Afterwards,the algorithm computes the object’s presence and adds it to q’soverall flow (lines 16–21).

Algorithm 1 Flow(Indoor semantic location q, B+-tree tree,Query time interval [ts, te])

1: LeafEntrySet les← tree.RangeQuery([ts, te])2: initialize a hash table HO : {oid} → {X}3: for each leaf entry le ∈ les do4: append le.X to HO[le.oid ]

5: flow ← 06: for each key oid ∈ HO.keys do7: (X1, . . . , Xn)← HO[oid ]8: path set P ← {〈(loc, prob)〉 | (loc, prob) ∈ X1}9: if n > 1 then

10: for i from 2 to n do11: for each path φ ∈ P do12: remove φ from P13: for each sample e ∈ Xi do14: if MIL[φ.tail.loc, e.loc] 6= ∅ then15: φ′ ← append(φ, e); add φ′ to P16: pr ← 0; prsum ← 017: for each path φ ∈ P do18: prφ ← Π1≤j≤|φ|φ[j].prob; prsum ← prsum + prφ19: if prφ q > 0 then . φ has chance to pass Cell(q)20: pr ← pr + (prφ q · prφ)

21: flow ← flow + prprsum

22: return flow

3. For readability, we still use the original MIL to explain our algorithms.

3.4 Data ReductionIn Algorithm 1, the path set P formed by Cartesian product canhave an explosive increasing size with the length of query timeinterval. Large P s can lead to slow computation of flows and makeAlgorithm 1 a performance bottleneck. Given a sequence X =(X1, . . . , Xn) of sample sets, the number of generated paths canbe as big as

∏1≤i≤n |πl(Xi)|. An example of constructing object

o2’s paths is shown in Figure 4(a), 4 sample sets within [t1, t8] aresearched from IUPT, incurring a number of 32 generated paths tobe processed.

(a) raw sequence |P| = 32 (b) after inner-merge |P| = 16 (c) after inter-merge |P| = 8

p1

0.5

p1

0.5

p2

0.5

p2

0.5

p1

0.5

p2

0.5

p2

0.7

p2

0.7

p4

0.3

p4

0.3

p2

0.7

p4

0.3

p5

0.3

p5

0.3

p6

0.6

p6

0.6

p8

0.1

p8

0.1

p5

0.3

p6

0.6

p8

0.1

p5

0.2

p5

0.2

p6

0.3

p6

0.3

p8

0.5

p8

0.5

p5

0.2

p6

0.3

p8

0.5

p1

0.5

p1

0.5

p2

0.5

p2

0.5

p1

0.5

p2

0.5

p2

0.7

p2

0.7

p4

0.3

p4

0.3

p2

0.7

p4

0.3

p5

0.3

p5

0.3

p6

0.7

p6

0.7

p5

0.3

p6

0.7

p5

0.2

p5

0.2

p6

0.8

p6

0.8

p5

0.2

p6

0.8

p1

0.5

p1

0.5

p2

0.5

p2

0.5

p1

0.5

p2

0.5

p2

0.7

p2

0.7

p4

0.3

p4

0.3

p2

0.7

p4

0.3

p5

0.25

p5

0.25

p6

0.75

p6

0.75

p5

0.25

p6

0.75

inner-merge

inter-merge

X1 X2 X3 X4X1 X2 X3 X4 X1 X2 X3 X4X1 X2 X3 X4 X1 X2 X3

_X1 X2 X3

_

t1 t3 t5 t6t1 t3 t5 t6 t1 t3 t5 t6t1 t3 t5 t6 t1 t3 t5 - t6t1 t3 t5 - t6

Figure 4. Example of Data Reduction on Object o2’s Positioning Se-quence

We bring up two operations to reduce the number of generatedpaths. On the one hand, the path construction can benefit froma smaller location set πl(Xi) at each Xi. This is done bymerging the samples of those equivalent P-locations (discussedin Section 3.2) inside each sample set. We call it inner-merge.On the other hand, it is useful to reduce the sequence lengthn. People may stay around the same place for a long time andtheir positions only have slight changes, resulting in a sequenceof sample sets that contain the identical set of P-locations. 4 Byan inter-merge, such sample sets can be sequentially merged toreduce the sequence length.

Figure 4 illustrates inner-merge and inter-merge operations.Referring to Figure 4(a), P-locations p6 and p8 included in πl(X3)are equivalent in searching the relevant cells from MIL, thus p8’sprobability is merged with p6’s 5. The same operation is applied toX4. The probability after an inner-merge is the sum of all originalprobabilities involved in the merge. Subsequently, the consecutiveX3 (at time t5) and X4 (at time t6) in Figure 4(b) can be mergedinto one sample set since they contain two same P-locations p5and p6. For each common P-location, we compute the mean of itsprobabilities in different sets, and obtain a new merged sample setX3 where it has probp5 = (0.3 + 0.2)/2 = 0.25 and probp6 =(0.7 + 0.8)/2 = 0.75. Finally, the size of generated paths inFigure 4(c) decreases to 8 from 32.

In addition to the merges, we also accelerate the process byavoiding unnecessary computations of the paths irrelevant to aquery location set. Referring to the example in Figure 1, we canfind out all of object o3’s possible semantic locations (PSLs) as r3,r4 and r6 according to its positioning records in Table 2. Thus,if a query location set is {r1, r2, r5} or one of its subsets, o3’ssequence can be ruled out before flow computing. To find out allthe PSLs of an object, we shall perform a scan over the sampleset sequence. Such procedure can be easily integrated with theaforementioned merge operations. Note that Algorithm 1 filtersthose invalid paths that do not satisfy the indoor spatial topology

4. The flow values defined in this study are independent of the dwell timeof an object at a particular location.

5. To maintain the consistency in search, we keep the P-location with asmaller subscript after a merge.

Figure 3. Indoor Location Matrix

constructing MIL, we say pi and pj are equivalent P-locations,denoted by pi ≡ pj . Referring to the example in Figure 1, fora given P-location p4, we find p6 ≡ p8 in searching c6 andp4 ≡ p9 in searching {c1, c6}. To eliminate such redundancy, wecan merge those equivalent P-locations sharing a common edge inGISL, and construct a new M -by-M matrix 3, where M = |E|is the number of edges in GISL and M ≤ N . By this merge, wecan downsize MIL and consequently reduce the scalability of thepossible paths to be generated. More details of this merge are tobe given in Section 3.4.

3.3 Algorithm

Now we are able to compute the indoor flow values for individualS-locations. We use a B+-tree to index the indoor uncertainpositioning table on its time attribute (see Table 2). Given an S-location q and a time interval [ts, te], Algorithm 1 fetches thepositioning records within [ts, te] (line 1), inserts them into ahash table (lines 2–4), and obtains q’s flow by going through allobject positioning records that are temporally relevant (lines 5–21). In particular, for each object, the algorithm forms the pathset P using all the sample sets (lines 7–15) according to the waydescribed in Section 2.3. It uses the indoor location matrix MIL todetermine those possible indoor paths (lines 14–15). Afterwards,the algorithm computes the object’s presence and adds it to q’soverall flow (lines 16–21).

Algorithm 1 Flow(Indoor semantic location q, B+-tree tree,Query time interval [ts, te])

1: LeafEntrySet les← tree.RangeQuery([ts, te])2: initialize a hash table HO : {oid} → {X}3: for each leaf entry le ∈ les do4: append le.X to HO[le.oid ]

5: flow ← 06: for each key oid ∈ HO.keys do7: (X1, . . . , Xn)← HO[oid ]8: path set P ← {〈(loc, prob)〉 | (loc, prob) ∈ X1}9: if n > 1 then

10: for i from 2 to n do11: for each path φ ∈ P do12: remove φ from P13: for each sample e ∈ Xi do14: if MIL[φ.tail.loc, e.loc] 6= ∅ then15: φ′ ← append(φ, e); add φ′ to P16: pr ← 0; prsum ← 017: for each path φ ∈ P do18: prφ ← Π1≤j≤|φ|φ[j].prob; prsum ← prsum + prφ19: if prφ q > 0 then . φ has chance to pass Cell(q)20: pr ← pr + (prφ q · prφ)

21: flow ← flow + prprsum

22: return flow

3. For readability, we still use the original MIL to explain our algorithms.

3.4 Data ReductionIn Algorithm 1, the path set P formed by Cartesian product canhave an explosive increasing size with the length of query timeinterval. Large P s can lead to slow computation of flows and makeAlgorithm 1 a performance bottleneck. Given a sequence X =(X1, . . . , Xn) of sample sets, the number of generated paths canbe as big as

∏1≤i≤n |πl(Xi)|. An example of constructing object

o2’s paths is shown in Figure 4(a), 4 sample sets within [t1, t8] aresearched from IUPT, incurring a number of 32 generated paths tobe processed.

(a) raw sequence |P| = 32 (b) after inner-merge |P| = 16 (c) after inter-merge |P| = 8

p1

0.5

p1

0.5

p2

0.5

p2

0.5

p1

0.5

p2

0.5

p2

0.7

p2

0.7

p4

0.3

p4

0.3

p2

0.7

p4

0.3

p5

0.3

p5

0.3

p6

0.6

p6

0.6

p8

0.1

p8

0.1

p5

0.3

p6

0.6

p8

0.1

p5

0.2

p5

0.2

p6

0.3

p6

0.3

p8

0.5

p8

0.5

p5

0.2

p6

0.3

p8

0.5

p1

0.5

p1

0.5

p2

0.5

p2

0.5

p1

0.5

p2

0.5

p2

0.7

p2

0.7

p4

0.3

p4

0.3

p2

0.7

p4

0.3

p5

0.3

p5

0.3

p6

0.7

p6

0.7

p5

0.3

p6

0.7

p5

0.2

p5

0.2

p6

0.8

p6

0.8

p5

0.2

p6

0.8

p1

0.5

p1

0.5

p2

0.5

p2

0.5

p1

0.5

p2

0.5

p2

0.7

p2

0.7

p4

0.3

p4

0.3

p2

0.7

p4

0.3

p5

0.25

p5

0.25

p6

0.75

p6

0.75

p5

0.25

p6

0.75

inner-merge

inter-merge

X1 X2 X3 X4X1 X2 X3 X4 X1 X2 X3 X4X1 X2 X3 X4 X1 X2 X3

_X1 X2 X3

_

t1 t3 t5 t6t1 t3 t5 t6 t1 t3 t5 t6t1 t3 t5 t6 t1 t3 t5 - t6t1 t3 t5 - t6

Figure 4. Example of Data Reduction on Object o2’s Positioning Se-quence

We bring up two operations to reduce the number of generatedpaths. On the one hand, the path construction can benefit froma smaller location set πl(Xi) at each Xi. This is done bymerging the samples of those equivalent P-locations (discussedin Section 3.2) inside each sample set. We call it inner-merge.On the other hand, it is useful to reduce the sequence lengthn. People may stay around the same place for a long time andtheir positions only have slight changes, resulting in a sequenceof sample sets that contain the identical set of P-locations. 4 Byan inter-merge, such sample sets can be sequentially merged toreduce the sequence length.

Figure 4 illustrates inner-merge and inter-merge operations.Referring to Figure 4(a), P-locations p6 and p8 included in πl(X3)are equivalent in searching the relevant cells from MIL, thus p8’sprobability is merged with p6’s 5. The same operation is applied toX4. The probability after an inner-merge is the sum of all originalprobabilities involved in the merge. Subsequently, the consecutiveX3 (at time t5) and X4 (at time t6) in Figure 4(b) can be mergedinto one sample set since they contain two same P-locations p5and p6. For each common P-location, we compute the mean of itsprobabilities in different sets, and obtain a new merged sample setX3 where it has probp5 = (0.3 + 0.2)/2 = 0.25 and probp6 =(0.7 + 0.8)/2 = 0.75. Finally, the size of generated paths inFigure 4(c) decreases to 8 from 32.

In addition to the merges, we also accelerate the process byavoiding unnecessary computations of the paths irrelevant to aquery location set. Referring to the example in Figure 1, we canfind out all of object o3’s possible semantic locations (PSLs) as r3,r4 and r6 according to its positioning records in Table 2. Thus,if a query location set is {r1, r2, r5} or one of its subsets, o3’ssequence can be ruled out before flow computing. To find out allthe PSLs of an object, we shall perform a scan over the sampleset sequence. Such procedure can be easily integrated with theaforementioned merge operations. Note that Algorithm 1 filtersthose invalid paths that do not satisfy the indoor spatial topology

4. The flow values defined in this study are independent of the dwell timeof an object at a particular location.

5. To maintain the consistency in search, we keep the P-location with asmaller subscript after a merge.

图 4.4 室内位置矩阵

Figure 4.4 Indoor Location Matrix

由于位置矩阵MIL的维数高达 |LP |，本节将进一步讨论其尺寸缩减（downsizing）的

方法。回忆4.3.1.1节中介绍到，数据结构 ℓe(⟨ci, cj⟩)可将图 GISL的一条边映射为一组对应

的 P-location，令其为 locs。事实上，∀pk ∈ LP 和 ∀pi, pj ∈ locs，MIL[pk, pi] =MIL[pk, pj]始

终成立，即 pi和 pj 在构建MIL时逻辑等价（logically equivalent）。在此情况下，我们称 pi

和 pj 为 P-location（equivalent P-location），表示为 pi ≡ pj。根据图4.1中的示例可知，

对于 P-location p4，可发现在搜索 c6时 p6 ≡ p8，而在搜索 {c1, c6}时 p4 ≡ p9。因此，我们

可将 GISL每一条边上的等价 P-location进行合并，来降低其在搜索相同一组室内单元时的

冗余。通过合并，MIL可缩减为一个M ×M 的矩阵，其中M = |GISL.E|为 GISL中边的数

量À。请注意，由于室内空间的 P-location数量远大于 GISL 中对应结点（以及边）的数量，

我们可以得到M ≪ |LP |。经过上述合并，我们可完成对MIL的尺寸缩减，并随之降低后

续需要生成的可能路径的规模。4.3.2节将详细介绍合并操作的细节。

4.3.2 数据规约方法

根据4.2.3节中定义的对象出现度可知，由笛卡尔积产生的可能路径会随查询时间段的

扩大而产生爆发式增长。庞大的路径集合将导致流量计算的滞缓而成为整个计算的性能瓶

颈。给定定位序列 X = (X1, . . . , Xn)，生成路径的大数量可为∏

1≤i≤n |πl(Xi)|。图4.5(a)

给出了移动对象 o2的可能路径构建示例，在 [t1, t8]时间段内可从对应 IUPT中搜索出 4个

样本集合，从而最多产生 32条需处理的生成路径。为减少在流量计算中需要考虑的可能

路径的数量，我们提出了一项数据规约的方法。

我们提出两项操作来减少生成路径的数量。一方面，当某些Xi的 P-location集合 πl(Xi)

减小时，路径的构建可从中受益。这一想法可通过合并每一个样本集合中等价的 P-locationÀ为保持技术内容的可读性，我们仍使用原始的MIL 来解释后续的算法。

66


(a) raw sequence |P| = 32 (b) after intra-merge |P| = 16 (c) after inter-merge |P| = 8

X2

t3

X1

t1

X3

t5

X4

t6

intra-merge

p2

0.7

p4

0.3

p1

p2

0.5

p5

0.3

p6

0.6

p8

0.1

p5

0.2

p6

0.3

p8

0.5

0.5

X2

t3

X1

t1

X3

t5

X4

t6

intra-merge

p2

0.7

p4

0.3

p1

p2

0.5

p5

0.3

p6

0.6

p8

0.1

p5

0.2

p6

0.3

p8

0.5

0.5

X2

t3

X1

t1

X3

t5

X4

t6

intra-merge

p2

0.7

p4

0.3

p1

p2

0.5

p5

0.3

p6

0.6

p8

0.1

p5

0.2

p6

0.3

p8

0.5

0.5

X2

t3

X1

t1

X3

t5

X4

t6

inter-merge

p2

0.7

p2

0.7

p4

0.3

p4

0.3

p2

0.7

p4

0.3

p1

0.5

p1

0.5

p2

0.5

p2

0.5

p1

0.5

p2

0.5

p5

0.3

p5

0.3

p6

0.7

p6

0.7

p5

0.2

p5

0.2

p6

0.8

p6

0.8

X2

t3

X1

t1

X3

t5

X4

t6

inter-merge

p2

0.7

p4

0.3

p1

0.5

p2

0.5

p5

0.3

p6

0.7

p5

0.2

p6

0.8

X2

t3

X1

t1

X3

t5

X4

t6

inter-merge

p2

0.7

p4

0.3

p1

0.5

p2

0.5

p5

0.3

p6

0.7

p5

0.2

p6

0.8

_X2

t3

X1

t1

X3

t5-t6

p2

0.7

p2

0.7

p4

0.3

p4

0.3

p2

0.7

p4

0.3

p1

0.5

p1

0.5

p2

0.5

p2

0.5

p1

0.5

p2

0.5

p5

0.25

p6

0.75

_X2

t3

X1

t1

X3

t5-t6

p2

0.7

p4

0.3

p1

0.5

p2

0.5

p5

0.25

p6

0.75

图 4.5 移动对象 o2的定位数据规约示例

Figure 4.5 Example of Data Reduction on Object o2’s Positioning Data

来实现，我们称其为（intra-merge）。

另一方面，减少序列 X 的长度也能得到一定帮助。移动对象可能会长时间待在同一

个地方，它们的位置只会稍微发生改变，这将导致一系列包含完全相同 P-location的样本

集合。在这一情况下，由于此类连续的样本集合指向几乎完全相同的对象潜在位置，我们

应将它们合并为一个样本集合À，我们称这个操作为（inter-merge）。具体而言，对

于每个共有的 P-location，我们计算其在所有原始样本集合中概率的平均值，将其作为在

新合并样本集合中的替代概率的大致估计。上述的近似概率估计简化了合并前的多个原

始样本集合中的信息；但是，它也避免对那些因在同一地点重复定位报告而产生的大量重

复路径的计算。

图4.5展示了内合并和间合并操作。参考图4.5(a)，包含在 πl(X3)中的 P-location p6 和

p8 在MIL 中搜索相关单元时是等价的，因此 p8 的概率被合并到 p6 中Á。相同的操作也可

对X4使用。合并后的概率是合并涉及的所有原始样本概率的总和。随后在图4.5(b)中，由

于 t5时刻的X3和 t6时刻的X4这两个连续的样本集合包含完全相同的一组 P-location，即

{p5, p6}，它们可以进行间合并。通过计算不同集合中每个共有 P-location的概率均值，我

们得到一个新的合并样本集合，其中替代概率为 probp5 = (0.3 + 0.2)/2 = 0.25和 probp6 =

(0.7 + 0.8)/2 = 0.75。最终，图4.5(c)中最多生成的路径从 32减少至 8。

除进行合并操作外，我们还考虑筛除所有定位位置与查询 S-location集合均无关的移

动对象的定位序列。以表4.2中对象 o3为例，在时间段 [t1, t8]中，其不同时刻的 P-location

集合分别为 {p2, p3}，{p2, p3}和 {p3}。通过检查图4.4中的MIL，我们可得到三个与 p2和/或

p3有关的室内单元，即 c3、c4和 c6。此外，根据图4.3中的映射关系，我们可得到 o3通过

的（possible semantic locations，PSL）：r3、r4和 r6。如果 o3的 PSL不被任一

查询语义位置包含，则 o3 可被安全剪除无需参与到流量计算中。因此，使用 PSL可快速

À注意，本章定义的室内流量与移动对象在特定 S-location停留的时长无关。Á为保持计算的一致性，我们在合并过程中保留较小下标的 P-location。

67


筛除那些无法通过查询集合中语义位置的不相关对象（和其生成路径）。要找到某一对象

的所有 PSL，我们可对其样本集合序列执行快速扫描，而无需进行任何可能路径的构建，

此步骤可被嵌入到合并操作的过程中一同进行。

算法 4.1 ReduceData(Sample set sequence X , Indoor semantic locations Q)1 (X1, . . . , Xn)← X2 initialize a sample set sequence X ′; initialize a set psls← ∅3 initialize a sample set sequence Xmerge4 for i from 1 to n do5 Xi ← IntraMerge(Xi)6 psls′ ←

∪loc∈πl(Xi)

C2S(MIL[loc, ∗] ∪MIL[∗, loc])7 psls← psls ∪ psls′8 Xtail ←Xmerge.tail()9 if Xtail = null and πl(Xi) = πl(Xtail) then

10 add InterMerge(Xmerge) to X ′; Xmerge.empty()11 add Xi to Xmerge12 if i = n then add InterMerge(Xmerge) to X ′

13 if psls ∩Q = ∅ then return ⟨X ′, psls⟩ else return ⟨null, null⟩14 function IntraMerge(Sample set X)15 for each subset X ⊆ X do16 if |X| ≥ 2 and πl(X) are equivalent P-locations then17 X ← X \ X18 loc← loc with smallest subscript in πl(X)19 pr ←

∑e∈X e.prob

20 add the merged sample e(loc, pr) to X21 return X22 function InterMerge(Sample set sequence Xmerge)23 if |Xmerge| = 1 then ▷ One sample set, return directly24 return Xmerge.front()25 else ▷ To merge the consecutive sample sets26 initialize a new sample set X ← ∅27 for each P-location loc in πl(Xmerge.front()) do28 pr ←

∑X′∈Xmerge X

′[loc].prob

|Xmerge|29 add the formed sample e(loc, pr) to X30 return X

如算法4.1所示，本节的数据规约方法接收样本集合序列 X（行 1）并返回规约后的序

列 X ′和对应的可能语义位置 psls（行 2）。此外，临时序列 Xmerge被用于保存那些需要进

行间合并的连续样本集合（行 3）。该算法遍历每个样本集合 Xi，并先为其调用内合并函

数 IntraMerge（行 4–5）。在每一次内合并后，Xi 中找到的可能语义位置被添加到 psls中

（行 6–7）。随后，上一个处理的样本集合Xtail，从 Xmerge的尾部获得（行 8），并与当前的

Xi进行比较。若它们的 P-location集合不完全相同（行 9），即 Xmerge不可能再扩入后续的

68


样本集合进行合并，间合并函数 InterMerge被调用（行 10）。一旦间合并完成，序列 Xmerge

将被清空（行 10）。无论当前 Xmerge是否执行了间合并，Xi都被加入到 Xmerge以便后续处

理（行 11）。为保证序列被完全处理，间合并在遍历的最后阶段也需执行一次（行 12）。

内合并函数 IntraMerge在每个样本集合 X 的内部进行合并操作（行 14–21）。当某一

个子集合 X 包含一组指向MIL 中相同室内单元的 P-location时（行 16），X 从 X 中被移

出（行 17），X 中最小下标的 P-location被选作代表，记为 loc（行 18），X 中所有样本的

概率都被累加到 pr上（行 19）。最后，一个新的样本 e(loc, pr)被添加回 X 中（行 20）。

间合并函数 InterMerge按如下方式进行工作（行 22–30）：当待合并序列 Xmerge中仅存

有一个样本集合时，该样本集合被直接返回（行 23–24）。否则，对于每个共有 P-location

loc（行 27），函数计算所有对应样本 X ′[loc], X ′ ∈ Xmerge 的概率均值 pr（行 28），并将构

建的样本 e(loc, pr)加入到新的集合 X 中（行 29）。当所有 loc都进行上述处理后，X 作

为新合并的样本集合被返回（行 30）。

最后，如果 psls中所有的 S-location都不在查询集合中，算法返回 null值，表明这一

处理序列将被排除在后续流量计算之外。否则，psls将和 X ′ 一起返回（行 13）。调用算

法4.1可显著减少对象的采样集合序列及生成路径的数量，以降低流量分析的计算量。

4.3.3 流量计算算法

本节将给出对单个 S-location 的室内流量值进行计算的方法。我们使用一维 R-tree

（one-dimensional R-tree，1DR-tree）[104]来对 IUPT中移动数据的时间属性进行索引。

给定 S-location q和兴趣时间段 [ts, te]，算法4.2取出 [ts, te]内相关的定位记录（行 1），

将它们插入到对象哈希表 HO 中（行 2–4），并通过遍历所有对象在时序上相关的定位记

录来获得 q的流量值（行 5–21）。具体而言，对每个移动对象，算法调用函数 ReduceData

（算法4.1）来获得缩减后的定位序列（行 7）。所有的 psls和 q 不相交的对象被排除在后

续的计算之外（行 8）。按照4.2.3节描述的步骤，缩减的定位序列可用于构建可能路径集

合 P（行 9–15）。其中，算法通过检查室内位置矩阵MIL来判定当前生成的路径是否有效

（行 14），只有有效路径才会加入到 P 中（行 15）以参与后续的可能路径生成。采用这一

方式，可以避免生成许多无效的路径分支。最后，算法根据4.2.3节的定义对室内对象的出

现度进行计算，并将对应的出现度值累加到 q的总体流量值上（行 16–21）。

69


算法 4.2 Flow(Indoor semantic location q, 1DR-tree tree, Query time interval [ts, te])1 LeafEntrySet les← tree.RangeQuery([ts, te])2 initialize a hash table HO : {oid} → {X}3 for each leaf entry le ∈ les do4 append le.X to HO[le.oid]5 flow← 06 for each key oid ∈ HO.keys do7 ⟨(X1, . . . , Xn), psls⟩ ← ReduceData(HO[oid], {q})8 if psls is null then continue9 path set P ← {⟨(loc, prob)⟩ | (loc, prob) ∈ X1}

10 for i from 1 to n do11 for each path ϕ ∈ P do12 remove ϕ from P13 for each sample e ∈ Xi do14 if MIL[ϕ.tail.loc, e.loc] = ∅ then15 ϕ′ ← append(ϕ, e); add ϕ′ to P16 pr ← 0; prsum ← 017 for each path ϕ ∈ P do18 prϕ ← Π1≤j≤|ϕ|ϕ[j].prob; prsum ← prsum + prϕ19 if prϕ⇝q > 0 then ▷ ϕ has chance to pass Cell(q)20 pr ← pr + (prϕ⇝q · prϕ)21 flow← flow + pr

prsum

22 return flow

4.4 Top-k室内热点语义位置挖掘算法

基于4.3节给出的数据结构、对象出现度及流量计算方法，本节对室内热点语义位置

挖掘算法进行了介绍。

Flow

(算法 4.2)

Full Ranking Full Ranking

Naive NestedLoop BestFirst

Intermediate

Result Sharing

(算法 4.3) (算法 4.4)

Data

Pruning

max-heap

R-trees on

objects and

S-locationshash table

Object Presence Computation

indoor

location

matrix

Possible Path

Construction

Data Reduction

(算法 4.1)indoor space

location graph

图 4.6 不同策略的热点语义位置挖掘算法对比

Figure 4.6 Naive, NestedLoop, and BestFirst Algorithms

如图4.6所示，一种朴素算法即通过调用算法4.2来计算Q中每一查询语义位置的流量，

70


并返回具有 top-k最高流量值的热点语义位置。该方法对算法4.2进行盲目调用，可能重复

地处理同一对象的定位样本序列和相关路径，因而效率十分低下。假设对象 o在查询时间

段内通过了两个查询 S-location qi, qj ∈ Q，则在算法4.2的两次调用中（分别对 qi和 qj），o

的位置样本和可能路径会被处理两次。为避免这种重复计算，我们在4.4.1小节中提出了一

种嵌套循环算法，通过共享中间计算结果来提升流量计算的效率。在4.4.2小节中，我们进

一步介绍了一种最佳优先搜索（best-first）算法，其可对无希望的查询候选 S-location和与

之流量计算无关的移动对象进行剪除，避免采用完整排序的方式。图4.6展示了上述三种

算法的关系及差异。

4.4.1 循环嵌套算法

算法 4.3 NestedLoop(Indoor semantic locations Q, 1DR-tree tree, Query time interval [ts, te])1 LeafEntrySet les← tree.RangeQuery([ts, te])2 initialize a hash table HO : {oid} → {X}3 for each leaf entry le ∈ les do4 append le.X to HO[le.oid]5 initialize a hash table HQ : Q→ {score}6 for each key oid ∈ HO.keys do7 ⟨(X1, . . . , Xn), psls⟩ ← ReduceData(HO[oid], Q)8 if psls is null then continue9 path set P ← {⟨(loc, prob)⟩ | (loc, prob) ∈ X1}

10 initialize a hash table Hϕ : {path} → 2Q

11 for i from 1 to n do12 for each path ϕ ∈ P do13 remove ϕ from P14 listQ ← remove Hϕ[ϕ] from Hϕ

15 for each sample e ∈ Xi do16 if MIL[ϕ.tail.loc, e.loc] = ∅ then17 ϕ′ ← append(ϕ, e); add ϕ′ to P18 list′Q ← (C2S(MIL[ϕ.tail.loc, e.loc]) ∩Q)19 Hϕ[ϕ

′]← listQ ∪ list′Q20 initialize a hash table Hls : Q→ {score}21 prsum ← 022 for each path ϕ ∈ P do23 pr = Π1≤j≤|ϕ|ϕ[j].prob; prsum ← prsum + pr24 for each query S-location q ∈ Hϕ[ϕ] do25 Hls[q]← Hls[q] + (prϕ⇝q · pr)26 for each query S-location q ∈ Hls.keys do27 HQ[q]← HQ[q] +

Hls[q]prsum

28 return the top-k from HQ.keys with the highest scores

算法4.3以循环嵌套连接的方式对热点室内语义位置进行挖掘。初始阶段，落入查询

71


时间段中的对象定位记录可通过 1DR-tree进行搜索（行 1），而每个对象的定位序列可通

过连接其所有记录来构建（行 2–4）。随后，算法对所有对象进行迭代（行 6–27）。在每次

迭代中，算法首先调用函数 ReduceData来缩减定位序列（行 7），过滤与 Q不相关的对象

（行 8），并在缩减的序列上生成所有的有效室内路径（行 9–19）。算法通过检查MIL 来确

保有效路径的生成（行 16）。同时，每个对象维护一个局部哈希表Hϕ，来记录每条有效路

径上存在的查询候选语义位置（行 10和 18–19）。在当前对象的所有有效路径生成后，算

法继续对每条路径进行处理（行 20–25），计算每个 S-location获得的当前处理对象的临时

局部分数。局部分数存储在哈希表Hls中，该表将查询位置 q映射为当前对象的所有有效

路径的局部分数累计和（行 20和 25）。此外，根据4.2.3节中的定义，当前对象的局部得

分将汇总到目前已经处理的对象所获得的全局得分上（行 26–27）。最后，算法返回在HQ

中总体得分最高的前 k个语义位置（行 28）。

算法4.3需要在 HO 中所有对象都处理完毕后才能返回 top-k 结果。事实上，返回的

top-k 热点位置通常只覆盖了整个室内空间的一部分，这意味着某些对象不会对目标的热

点位置带来任何贡献。因此，识别并跳过这些对象可以加快我们的挖掘过程。接下来本章

将介绍一种最佳优先搜索算法，该算法优先考虑具有更大流量估计值的一组有希望的候

选语义位置，并避免一些不必要但复杂的流量计算过程——而这些计算仅会涉及那些无效

的候选语义位置。

4.4.2 最佳优先搜索算法

如算法4.4所示，最佳优先搜索算法由三个阶段组成。在第一阶段（行 1–10），数据

的准备工作（行 1–4）与算法4.3中的对应部分相同。一旦包含所有对象定位序列的散列表

HO 构建完成后，算法将这些对象迭代地组织到内存中的 COUNT-aggregate R-tree [141]RC

中（行 5–10）。RC 中的每个非叶结点条目 e都增加了一个计数 e.count，该计数存储了 e

的子结点中包含的对象数。具体而言，对于每个移动对象（行 6），如果其获得的 psls（行

7）与 Q相交（行 8），则包含 psls的MBR（Minimum Bounding Rectangle）和该对象本身

被插入到 RC 中（行 9–10）。在实现中，我们使用了一系列小的、细粒度的 MBR来表达

psls以加速 R-tree的连接过程。

第二阶段（行 11–18）对查询 S-location R-tree RQ和 COUNT-aggregate R-tree RC 的连

接进行准备。该阶段首先初始化一个最大堆H，以给予具有较高流量值的 RQ条目（一组

查询 S-location）更高的处理优先级（行 11和 18）。对 RQ中的每一条目 eQ，一个附属的

连接列表（行 13）被构建，其中包含所有与 eQ的MBR相交的 RC 条目。值得注意的是，

72


算法 4.4 BestFirst(R-treeRQ for indoor semantic locationsQ, 1DR-tree tree, Query time interval[ts, te])

1 LeafEntrySet les← tree.RangeQuery([ts, te])2 initialize a hash table HO : {oid} → {X}3 for each leaf entry le ∈ les do4 append le.X to HO[le.oid]5 initialize an in-memory COUNT-aggregate R-tree RC

6 for each key oid ∈ HO.keys do7 ⟨X ′, psls⟩ ← ReduceData(HO[oid], Q)8 if psls is not null then ▷ psls overlaps with Q9 get psls’s MBR mbr

10 insert (oid,mbr) to RC

11 initialize a max-heapH12 for each entry eQ in RQ.root do13 ubFlow← 0; list← ∅14 for each entry eC in RC .root do15 if eQ.mbr intersects eC .mbr then16 ubFlow← ubFlow + eC .count17 add eC to list18 H.enheap(eQ, list, ubFlow)19 result← ∅20 whileH is not empty do21 ⟨eQ, list, ubFlow⟩ ← H.deheap()22 if eQ is a leaf entry then ▷ eQ stores a query S-location23 if list is null then24 add S-location eQ.object to result25 if |result| = k then return result26 else27 if list contains leaf entries then28 use all objects contained by list to compute flow for the query S-location

eQ.object29 H.enheap(eQ, null, flow)30 else31 ExpandList(eQ, list)32 else33 if list contains leaf entries then34 for each sub-entry e′Q ∈ eQ.node do35 ubFlow← 0; list2← ∅36 for each entry eC ∈ list do37 if e′Q.mbr intersects eC .mbr then38 ubFlow← ubFlow + 139 add eC to list240 if list2 = ∅ thenH.enheap(e′Q, list2, ubFlow)41 else42 for each sub-entry e′Q ∈ eQ.node do43 ExpandList(e′Q, list)

73


eQ中的任何 S-location的流量值只能来自于这些相交的 RC 条目。当两个 R-tree根结点初

始连接时（行 12–17），上述 RC 条目的 count被用于流量的上估 ubFlow（行 16），这是因

为对象在任何 S-location中的出现度不能超过 1（参见4.2.3节）。

第三阶段（行 20–43）按照最大堆的控制顺序（行 20–21）来执行连接操作。如果当

前条目 eQ处于叶结点中（行 22–31），我们对其连接列表进行检查。如果它是空的，即 eQ

的具体流量值已被计算，且该值高于那些尚未计算的流量值，我们将其添加到最终结果中

（行 24）。如果当前结果已包含 k 个语义位置，则算法终止（行 25）。否则，连接列表可

能会包含叶结点条目或非叶结点条目：对前一种情况（行 27），连接列表中的对象被载入，

以计算叶结点条目 eQ 的具体流量值（行 28）。由于每个对象的采样位置和生成路径可能

会与不同的 S-location相交，因而每个被调用对象的中间结果应如算法4.3中一样被共享。

对后一种情况（行 30），函数 ExpandList将被调用，以对 eQ 和连接列表的子条目进行连

接。如算法4.5所示，该函数遍历连接列表并找出合格的 RC 条目，其中每一合格 RC 条目

的 MBR都与 eQ 相交（行 4）。同时，该函数使用与 eQ 相交的 RC 条目的 count值总和，

来对 eQ的流量值进行上估（行 5）。

如果当前条目 eQ处于非叶结点中（行 32–43）时，需要区分两种情况。若连接列表包

含叶结点条目（行 33），eQ的每一子条目在与连接列表的条目进行连接时都对其流量值进

行上估（行 38）。当处理的子条目 e′Q的列表不为空时，其才会被添加到最大堆中（行 40）。

若连接列表包含非叶结点条目，则需为 eQ的每个子条目调用 ExpandList（行 42–43）。

算法 4.5 ExpandList(Node entry eQ from R-tree RQ, Join list list)1 ubFlow← 0; list2← ∅2 for each entry eC ∈ list do3 for each sub-entry e′ ∈ eC .node do4 if eQ.mbr intersects e′.mbr then5 ubFlow← ubFlow + e′.count6 add e′ to list27 if list2 = ∅ thenH.enheap(eQ, list2, ubFlow)

4.5 实验结果及分析

本节对提出的室内流量分析挖掘方法进行了实验验证和结果分析。其中，4.5.1小节介

绍了实验对比方法及度量模型，4.5.2小节和4.5.3小节分别展示了真实和合成数据集上的实

验结果。所有算法均采用 Java实现，实验环境为搭载 3.10GHz主频 Core i3 CPU的 PC主

机。由于在挖掘计算中可能采用较大的查询时间段，从而生成规模庞大的可能路径集合，

74


我们将生成的有效路径存储在硬盘中。

4.5.1 对比方法及度量模型

对比方法本节对不同的热点语义位置挖掘算法进行比较,包括 Naive（参见4.4小节开

始部分），NL（算法4.3 NestedLoop）和 BF（算法4.4 BestFirst）。除此之外，我们还设计了

下列比较方法：

(1) 一种对 IUPT中每个定位记录进行（Simple Counting）的方法如下：它选取定

位记录中最高概率的（第一个）样本，并丢弃其它样本。如果选取样本相应的 P-location

被某个 S-location q包含，则 q的流量值加 1。该方法记为 DC。

(2) SC-ρ与 SC的不同在于，它选取所有概率超过给定阈值 ρ的样本。SC和 SC-ρ都允许

一个 P-location被多个 S-location所计入，但 SC-ρ可能考虑更多的样本和 P-location。

(3) 一种基于蒙特卡洛采样的方法MC如下：它进行一定轮次的模拟，在每轮模拟中生成

一个 IUPT的确定性实例，即其中所有定位记录都通过随机采样方法转换为一条仅含

有一个 P-location的确定性记录。随后，它通过在确定性定位记录上构建移动对象的

有效路径来计算每个候选语义位置的室内流量值。最终，通过对所有模拟轮次中平均

流量值进行计算和排序，top-k的热点语义位置被返回。

在 SC与 SC-ρ两种对象计数方法中，移动对象可能在不同时刻通过同一个 S-location。

为同本章的室内流量定义相一致，我们在整个查询时间段内仅对通过某个 S-location的移

动对象进行最多一次计数。

度量模型以下分别介绍本章提出的 top-k 热点语义位置挖掘算法的计算效率（effi-

ciency）和结果有效性（effectiveness）的度量标准。

在衡量计算效率方面，我们在特定参数设定下对每种方法进行多次运行，并分别统计

其平均运行时间和（pruning ratio）。具体而言，剪枝率定义为 σ = (|O| − |Oc|)/|O|，

其中 O是所有室内移动对象的集合，Oc则包含了所有需要进行出现度计算（参见4.2.3节）

的对象数量。

在衡量结果有效性方面，本节使用了与第三章3.5.1节相同的召回率（Recall）和Kendall

系数来衡量 top-k挖掘结果和 top-k真值的一致性。


本节使用了从大学办公楼中收集的真实定位数据来进行算法性能评估。办公楼部署

的定位系统采用Wi-Fi指纹算法 [46]，将移动客户端的当前位置估计为一组具有相应概率的

预定义参考点。这些参考点与用户当前位置在Wi-Fi信号向量的相似度上最高。如图4.7所

75


示，标地尺寸为 33.9m × 25.9m的测试空间被划分为 14个室内分区（9个办公室及 5个过

道），这些室内分区被作为实验中的语义位置，编号为 a到 n。我们在所有语义位置中随机

选择 20%（40%，60%，80%，或 100%）以形成一个查询集合Q。测试空间中共使用 75个

P-location（参考点），考虑到拓扑连接关系，75个中的 16个为分隔 P-location（蓝点），其

它的为出现 P-location（绿点）。为加快拓扑关系的判定计算，我们使用常驻内存的 R-tree

来索引室内实体元素，包括 S-location、P-location和门。此外，室内空间位置图和室内位

置矩阵也维护在主存中，它们的最大内存消耗为 147.7 KB。

b

c

d

a

e f g h

j

i

k m

n

l

a partitioning P-location a partitioning P-location

a presence P-location a presence P-location

an S-locationk an S-locationk

a partitioning P-location

a presence P-location

an S-locationk

AA BB

CC

DD

33.9 m

25.9

m

图 4.7 真实数据集的测试环境平面图

Figure 4.7 The Test Floor of Real Dataset

从 2015年 4月 21日至 24日，35位携带移动终端的用户参与了数据采集。在采集过

程中，用户被要求确认他们的实际分区以获取真值。实验截取了一天中具有高峰流量的

150分钟时间，获得了一个包含 64,846条定位记录的 IUPT。IUPT中每条定位记录最多包

含 4个样本，即大（maximum sample-set size）[46]mss为 4。我们使用大

（maximum positioning period）T 来表示用户定位记录的最大时间间隔。据统计

分析发现，采集数据集中 T 为 3s，即定位频度不低于 1/3 Hz；选取数据的平均定位误差

约为 2.1米。生成的查询时间段中，ts 和 te 在给定 ∆t = te − ts 的情况下进行随机选取。

表4.3给出了真实数据实验的参数设定，其中粗体为默认值。

表 4.3 真实数据实验的参数设定

Table 4.3 Parameter Settings on Real Data

参数设定

k 1, 2, 3, …, 8|Q| (% of S-locations) 20%, 40%, 60%, 80%, 100%

mss 1, 2, 3, 4∆t (minute) 30, 60, 90

76


4.5.2.1 使用数据规约方法的效果

对本章提出的挖掘方法 Naive、NL和 BF，我们分别实现了其处理原始定位序列而不

使用数据规约（参见4.3.2小节）的版本，即 Naive-ORG，NL-ORG和 BF-ORG。

表4.4报告了默认参数设置下所有实现方法的性能表现。其中，在 SC-ρ中，我们调节

参数 ρ = 0.25以取得最佳的结果有效性。同时，我们将MC的模拟轮次控制在 900次，此

时 Kendall系数近乎达到饱和。

表 4.4 默认参数下各算法性能对比

Table 4.4 Performance Comparison in Default Setting

方法运行时间（sec.）剪枝率（%） Kendall系数 τ 召回率（%）

SC 0.6 - 0.007 62.2SC-ρ (ρ = 0.25) 1.1 - 0.382 75.6MC, 900 rounds 1.7× 104 - 0.712 86.7

BF 4.4 59.4 0.859 93.3NL 9.5 19.2 same as above.

Naive 59.1 19.2 same as above.BF-ORG 1.4× 104 50.3 0.893 95.6NL-ORG 2.3× 104 0 same as above.

Naive-ORG 1.6× 105 0 same as above.

SC和 SC-ρ显然能比 BF和 NL更快地返回 top-k 挖掘结果，这是因为它们不需要进

行任何有效路径的构建。然而，这两种方法的有效性度量明显较低。其中，SC的 Kendall

系数仅为 0.007，SC-ρ的 Kendall系数则为 0.382，这意味着它们挖掘的结果与真值在排序

上高度不符。而 SC和 SC-ρ的召回率也分别仅为 62.2%和 75.6%，表明二者也不能良好

地找出真实的热点语义位置。相比之下，通过采用本章的不确定性流量计算模型，BF和

NL的有效性度量明显更高；BF在计算效率和结果效力间也取得了很好的平衡。

表4.4的结果也体现了本章提出的数据规约方法的重要作用。没有进行数据规约的情

况下，Naive-ORG、NL-ORG和 BF-ORG相比其数据规约版本，要慢几个数量级。尽管原

始数据中计算工作量极大，但 BF-ORG依然剪除了 50.3%的移动对象，甚至远高于 NL，

这展示了最佳优先搜索算法的强大剪枝能力。另一方面，数据规约方法对挖掘结果的有效

性影响甚微，这一结论可通过观察有/无采用数据规约的方法的有效性度量来证明——二

者的 Kendall系数和召回率都相当接近。与使用数据规约的方法相比，MC在模拟过程中

会产生明显更长的运行时间，尽管其在每次模拟过程中仅处理由确定性定位记录生成的

非常少的一组路径。此外，MC的结果有效性度量也都低于我们提出的方法。

综上可知，SC和 SC-ρ的计算成本很低，但结果的有效性很差。BF-ORG、NL-ORG、

77


Naive-ORG和MC，由于没有采用数据规约方法，都需要极长的运行时间。

4.5.2.2 真实数据中不确定性带来的影响

本节特别对数据不确定性给热点语义位置挖掘带来的影响进行了讨论。我们对定位

记录的最大样本集合容量进行如下方式的调节：对于每条记录，如果其包含样本的数量超

过最大样本集合容量mss，则删除其概率较低的样本，直至剩下mss个样本。当mss为 1

时，报告的位置变为确定的。在采集的真实数据中，定位的采样频率较高（≥1/3Hz），因

此本节不考虑与定位频率有关的数据不确定性。4.5.3.1节将在合成数据集上进一步对数据

不确定性的影响进行探究，调节的参数包括最大定位周期 T 和室内定位误差 µ。

在其它参数为默认值的情况下，我们在不同 mss值下对 BF、SC、SC-ρ和 MC进行

运行，其计算效率的对比如表4.5所示。当mss从 1增加到 4时，由于需要计算更多样本，

SC和 SC-ρ的运行时长稳步增加；BF的运行时长随涉及计算的可能路径集合变大而增长

得更快。尽管如此，BF仍可在 4.42s内返回 top-3的结果。与其它方法相比，MC的运行

时长要慢几个数量级。当 mss从 1到 2时，其运行时间增加，并在 mss达到 4时几乎保

持稳定，这是因为MC需要更多时间在定位报告的多个样本中进行随机选取。

表 4.5 不同mss值下各算法计算效率对比

Table 4.5 Efficiency Comparison with Different Settings of mss

方法运行时间（sec.）

mss = 1 mss = 2 mss = 3 mss = 4

BF 0.18 0.80 2.86 4.42SC 0.14 0.42 0.53 0.60

SC-ρ (ρ = 0.25) 0.17 0.61 0.87 1.12MC, 900 rounds 15625 17267 17532 17447

随后，我们对上述方法在不同 mss设定下的结果有效性进行了度量，结果如图4.8所

示。其中，SC的 Kendall系数和召回率在 mss变化时保持稳定，因其只使用了每个记录

中概率最高的样本，因而计数不受样本容量的影响。相比之下，当位置报告中包含更多概

率样本时，SC-ρ、MC和 BF的两项度量指标均显著增长。

当 mss为 1时，位置报告变为确定的——这丢弃了一些有用信息并放大了潜在的定

位误差。由于真实数据集中位置报告是根据一组相对离散的 P-location（每 4.48平方米设

置一个）估算的，因此即便是 BF方法，当位置报告只包含一个样本时，其 Kendall系数

和召回率也仅分别为 0.462和 71.1%。请注意，在此情况下，SC和 SC-ρ返回相同的结果，

而MC等同于没有进行数据规约的 BF方法。当mss由 2变为 4时，SC-ρ，MC和 BF的

78


有效性度量都会随着更多样本的引入而增大，且 BF的增加速度比其它方法更快。结果表

明，采用概率样本的不确定数据模型在解决本章问题时比确定性数据模型更为有效。

1 2 3 40 . 00 . 20 . 40 . 60 . 81 . 0

1 2 3 40 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

ntm s s

B F S C S C - ρ M C ( b )

Reca

ll

m s s

图 4.8 mss对结果效力的影响 [真实数据集]Figure 4.8 Effectiveness vs. mss on Real Data


本节将略去 SC和 SC-ρ及其它低效率的对比方法，仅对真实数据集下 NL和 BF的计

算效率进行评估。实验随机生成 15个查询语义位置集合，并将得到的平均结果进行展示。

通过对特定参数值进行调节，可分析得出以下关于算法计算效率影响因素的结论：

(1) 在 |Q|值固定为 8（占所有 14个语义位置的 60%）、∆t固定为 30分钟的情况下，我

们对 k 值进行调节。根据图4.9(a)可知，k 值的增大对 NL的运行时间几乎没有影响，

因为无论 k值多大，每个 psls与 Q相交的对象都需参与流量计算。当 k增大时，BF

的时间成本稳步增长，但其仍可在不到 6.3s的时间内返回 top-5的结果。特别是，当

k增加到 8时，即 Q中的所有语义位置都需返回时，除那些可通过数据规约被过滤的

对象外，其它所有对象都必须被处理。因此，因在最大堆和 R-tree上进行的额外操作，

BF甚至比 NL需花费更多的时间。如图4.9(b)所示，当所有语义位置都需返回时，增

大 k会导致 BF的剪枝率稳步下降并自至 NL的 19.2%的水平。较大的 k要求 BF计算

更多语义位置的流量，往往涉及更多的移动对象。这一变化趋势同 BF的运行时间的

增长相一致。

(2) 在 k 值固定为 3、∆t为 30分钟的情况下，我们对 |Q|值进行调节。根据图4.10(a)可

知，两种方法的运行时间都随 |Q|值的增大而增长，但二者的时间差逐步变大。根据

图4.10(b)可知，当挖掘过程指定较大的 |Q|时，两种方法都必须在计算流程中处理更

多对象。另外，当查询集合 Q中包含所有语义位置时（即 |Q| = 100%× 14），流量的

计算需处理 IUPT中的所有对象，在 k固定的情况下 BF方法可更早终止。

(3) 在 k 值和 |Q|值分别固定为 3和 8的情况下，我们对 ∆t值进行调节。如图4.11(a)所

示，两种算法的时间成本因 ∆t 增大而显著增长。一方面，较大的 ∆t 会增加每一处

理对象需考虑样本的数量，因此需要更多时间来计算具体的流量值。另一方面，较大

79


的 ∆t也趋于扩展对象的 PSL，使更多对象参与到查询语义位置的流量计算中。由于

上述两个原因，∆t值增大会迅速提升算法的时间成本。根据图4.11(b)可知，当∆t从

30分钟增加到 90分钟时，BF的剪枝率适度减小。由于本节的真实数据集是在相对较

小的空间内收集的，大多数语义位置都包含在查询集合 Q中，因此 ∆t的变化主导了

BF的剪枝率表现。尽管如此，当 ∆t增加到 90分钟时，BF仍可比 NL剪除更多的对

象——NL的剪枝主要通过数据规约来完成，这表明 BF在查询时间间隔很长时也依然

能够表现良好。

1 2 3 4 5 6 7 802 04 06 08 0

1 0 0

1 2 3 4 5 6 7 802468

1 01 2 ( a )

Time (

sec.)

k

N L B F( b )

Prunin

g Rati

o (%)

k

N L B F

图 4.9 k对计算效率的影响 [真实数据集]Figure 4.9 Efficiency vs. k on Real Data

2 0 4 0 6 0 8 0 1 0 002 04 06 08 0

1 0 0

2 0 4 0 6 0 8 0 1 0 002468

1 01 21 4 ( a )

Time (

sec.)

| Q | ( % )

N L B F( b )

Prunin

g Rati

o (%)

| Q | ( % )

N L B F

图 4.10 |Q|对计算效率的影响 [真实数据集]Figure 4.10 Efficiency vs. |Q| on Real Data

3 0 6 0 9 002 04 06 08 0

1 0 0

3 0 6 0 9 01 0 0

1 0 1

1 0 2

1 0 3

( a )

Time (

sec.)

∆t ( m i n . )

N L B F( b )

Prunin

g Rati

o (%)

∆t ( m i n . )

N L B F

图 4.11 ∆t对计算效率的影响 [真实数据集]Figure 4.11 Efficiency vs. ∆t on Real Data

1 2 3 4 5 6 7 8- 0 . 20 . 00 . 20 . 40 . 60 . 81 . 0

1 2 3 4 5 6 7 80 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

k

B F S C S C - ρ M C( b )

Reca

ll

k

图 4.12 k对结果效力的影响 [真实数据集]Figure 4.12 Effectiveness vs. k on Real Data

2 0 4 0 6 0 8 0 1 0 0- 0 . 20 . 00 . 20 . 40 . 60 . 81 . 0

2 0 4 0 6 0 8 0 1 0 00 . 30 . 40 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

| Q | ( % )


Reca

ll

| Q | ( % )

图 4.13 |Q|对结果效力的影响 [真实数据集]Figure 4.13 Effectiveness vs. |Q| on Real Data

3 0 6 0 9 0- 0 . 20 . 00 . 20 . 40 . 60 . 81 . 0

3 0 6 0 9 00 . 40 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

∆t ( m i n . )


Reca

ll

∆t ( m i n . )

图 4.14 ∆t对结果效力的影响 [真实数据集]Figure 4.14 Effectiveness vs. ∆t on Real Data

4.5.2.4 结果有效性评估

与4.5.2.3小节使用相同的参数调节设定，本小节对 BF、SC、SC-ρ和MC的结果有效

性进行了评估和比较，最后分析得出以下结论：

(1) 调节 k 值对结果效力的影响如图4.12所示。根据图4.12(a) 可知，随着 k 值增大到 3，

BF的 Kendall系数 τ 适度下降但保持在 0.85以上。总体上看，τ 始终高于 0.77。根据

80


图4.12(b)可知，在大多测试情况下，BF的召回率高于 0.88。这些结果验证了本章方法

在真实数据集上挖掘结果的有效性。与 BF相比，SC和 SC-ρ在两项有效性指标上都

较差。此外，尽管MC已经使用了足够轮次的模拟进行流量计算，但与本章方法间仍

存在一定差距。在实现中，MC仅考虑每个定位记录内部的概率样本来进行采样，这

忽略了来自上下文记录中的信息，因此效果不如在 BF方法中保持每个可能样本并计

算所有的有效路径。有趣的是，由于 |Q|在测试中是固定的，较大的 k趋于在挖掘结果

中包含更多的真实热点位置，因此两个有效性度量在 k足够大后都会提升。最终，所

有方法的召回率都会增长为 1，因所有的真实热点位置都将进入 top-k挖掘结果中。

(2) 调节 |Q|值对结果效力的影响如图4.13所示。根据图4.13(a)可知，由于涉及到更多的

查询语义位置，BF的 Kendall系数 τ 会随 |Q|值的增大而适度降低。但是，即便对所

有语义位置进行了完整的流量分析，τ 仍高于 0.75。根据图4.13(b)可知，当 |Q|增大

时，BF的召回率降低；但是，当 |Q|增加到 80%时，召回率总的来说要高于 0.86。对

于两项有效性度量，BF在所有测试中都优于其它方法，且下降速度更慢。因此可知，

我们的挖掘算法在查询集合 Q较大时仍是十分有效的。

(3) 调节 ∆t值对结果效力的影响如图4.14所示。随着 ∆t的增加，BF的两个有效性度量

只是略有下降，并与其它方法的表现差距进一步扩大。在 BF的所有测试上，τ 均高于

0.82，召回率均高于 0.88。当我们延长查询时间段时，对象的 PSL被扩大，使得流量

计算中涉及到更多不相关的语义位置。同时，较大的 ∆t往往会排除掉更多的无效路

径，并使构建的路径更可能地接近真值，从而抵消数据不确定性的影响并提高流量计

算的准确性。由于这两个相互抵触的原因，∆t增加时 BF的召回率仅略有下降。BF的

τ 的变化同样如此。因此，当使用较长查询时间段时，我们的挖掘方法仍然有效。


为进一步验证本章方法在大规模数据集上的性能表现，特别是参数 |O|、T 和室内定

位误差 µ对算法性能的影响，本节利用数据生成工具集 Vita [137]对室内定位数据集进行了

模拟生成，具体设置如下：

室内空间及位置空间的生成采用了同第三章3.5.2.1小节相同的购物中心平面图（标

地尺寸 120m × 120m，包括 100个房间和 4间楼梯间）进行模拟复制，生成了一个五层的

室内建筑。通过对于不规则部分的分解，共得到 645个室内分区和 840个门。我们将每一

楼梯间或普通分区转换为语义位置，共得到 649个语义位置。所有语义位置（S-location）

都由 R-tree 进行索引，其中根结点包含 5 个子结点以区分不同楼层。我们将四个楼梯间

81


S-location插入至每个楼层的相应子结点，以便进行直接搜索。索引维护在内存中，约 5.9

MB。另一方面，P-location对应于指纹定位算法 [46] 中预先选择的参考点。我们使用网格

划分整个室内空间，去除墙上或空间外的格点后，剩余的 5450个格点被转换为 P-location，

包括 4690个存在 P-location和 760个分隔 P-location。所有生成的 S-location和 P-location

用于构建4.3.1节介绍的两个数据结构，二者的总内存消耗约 3.63 MB。

移动对象和 IUPT 我们在 5层建筑内生成移动对象，模拟周期为 2小时。其中，2.5K

（5K、7.5K或 10K）的对象被随机分配在空间中，每个对象的生命周期从 30分钟到 2小

时不等。所有对象的最大速度为 Vmax = 1m/s，运动符合随机路点移动模型 [138]。具体而

言，一个对象沿着最短的室内路径向目的地移动，在到达后进行 5到 30分钟的停留，并

再次向随机决定的下一目的地移动。在整个模拟中，对象在每秒的精确位置被记录，并存

储在对象的时空轨迹中。这些具有精确位置和时刻的轨迹构成了实验的评估真值。

合成的 IUPT根据上述真值信息进行如下方式的维护：在一个对象向 IUPT发送位置

更新后，它将保持最多 T 秒的静默状态，其中 T 对应于4.5.2节中定义的最大定位周期。对

象 o的位置更新由时间戳 t和样本集合 X 组成，并且基数 |X|在 1和 mss间随机决定。

我们在实验中设置mss = 4。在经典的指纹定位模型WkNN [46] 中，X 中的每一样本都由

定位位置 loci 和概率 probi 组成。其中，loci 随机落在 o当前实际位置 o.loc的 µ米以内，

µ表示（indoor positioning error）；概率值 probi = w(loci)/∑

1≤k≤|X|w(lock)，

w(loci)是 P-location loci的权重——计算为 1/(Dist(loci, o.loc) · (1+ γ))，表示该权重与 loci

到 o.loc的距离成反比。我们引入-0.2到 0.2间变动的随机量 γ来实现 w(loci)的噪声估计。

其它设定查询集合 Q中的语义位置随机从 S-location集合 LS 中选取。表4.6给出了

合成数据实验的参数设定，其中粗体为默认值。以下实验对挖掘方法 BF（NL）、SC、SC-ρ

和MC进行比较。为取得最佳的对比算法性能，我们调参并设定 SC-ρ中 ρ = 0.2、MC中

模拟轮次为 25,000。我们在各参数设定下生成 20个随机查询并统计其平均度量结果。

表 4.6 合成数据实验的参数设定

Table 4.6 Parameter Settings on Synthetic Data

参数设定

k 5, 10, 15, 20|Q| (% of S-locations in LS) 4%, 8%, 12%

|O| 2.5K, 5K, 7.5K, 10KT (second) 1, 3, 5, 7µ (meter) 3, 5, 7

∆t (minute) 15, 30, 60, 120

82


4.5.3.1 合成数据中不确定性带来的影响

在数据不确定性影响方面，本节对最大定位周期 T 和室内定位误差 µ进行了测试。每

一参数调节都在其它参数固定的情况下完成。通过比较分析，可得出以下结论：

最大定位周期 T 的影响根据图4.15(a)可知，当 T 值从 1s增加到 7s时，NL和 BF

的运行时间明显降低。较小的 T 意味着对象更频繁地报告其更新，因此 NL和 BF需要处

理更多有效的可能路径。尽管如此，当所有对象每秒都更新其位置时，BF仍可在 99s内

完成一个半小时范围的查询。此外，SC和 SC-ρ的时间成本已经很低，因此仅略有下降。

MC的运行时间也随着 T 的增大而降低，但其仅与位置报告的个数呈线性相关，因此下降

速度要慢得多。在所有测试中，MC的成本相较其它方法都要高几个数量级，这是因为它

必须采用大量的模拟来获得足够好的结果有效性（结果参见图4.16）。

如图4.16所示，当增大 T 时，SC和 SC-ρ的两个有效性度量都迅速下降，但 BF和MC

仅受轻微影响。较大的 T 使位置更新较不频繁，因此 IUPT中捕获的信息也较少，这导致

数据不确定性增大，从而挖掘结果的质量降低。尽管如此，BF仍在测试中胜过所有其它

方法：它的 τ 值在所有 T 上都高于 0.77，默参设定下召回率更是高于 0.9。

室内定位误差µ的影响接下来，我们将定位误差 µ从 3米调节到 7米。参照图4.15(b)，

NL和 BF的运行时间随 µ的增大而降低，而其它方法几乎保持不变。当定位误差变大时，

NL和 BF中需要生成的有效路径数量趋于降低，因而对应的流量计算方法可排除更多由

于不准确定位结果而产生的无效路径。

相应地，我们在上述参数设定下对各方法的有效性进行了评估，结果如图4.17所示。

当 µ增大时，SC和 SC-ρ的两项度量都会明显降低，这是因为这两种完全依靠定位记录的

计数方法对数据中的定位误差非常敏感。相比之下，由于利用了室内拓扑结构来构建流量

计算中的可能路径，BF和MC的表现更为优异。而且，BF的性能要优于MC，因其彻底

地考虑了所有有效的可能路径。当 µ = 7m时，BF的 τ 值仍高于 0.77，召回率则超过 0.87。

综合对参数 T、µ及4.5.2.2节对mss的测试结果，可以发现：在室内移动数据具有

较高的不确定性时，本章提出的 BF方法仍可高效、有效地进行工作。

1 3 5 71 0 - 11 0 01 0 11 0 21 0 31 0 4

( a )

Time (

sec.)

T ( s e c . )

N L B F S C S C - ρ M C

3 5 71 0 - 11 0 01 0 11 0 21 0 31 0 4 ( b )

Time (

sec.)

� ( m e t e r )

图 4.15 T 和 µ对计算效率的影响 [合成数据集]Figure 4.15 Efficiency vs. T and µ on Synthetic Data

1 3 5 70 . 00 . 20 . 40 . 60 . 81 . 0

1 3 5 70 . 40 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

T ( s e c . )


Reca

ll

T ( s e c . )

图 4.16 T 对结果效力的影响 [合成数据集]Figure 4.16 Effectiveness vs. T on Synthetic Data

83


3 5 7- 0 . 20 . 00 . 20 . 40 . 60 . 81 . 0

3 5 70 . 40 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

� ( m e t e r )


Reca

ll

� ( m e t e r )

图 4.17 µ对结果效力的影响 [合成数据集]Figure 4.17 Effectiveness vs. µ on Synthetic Data

2 . 5 K 5 . 0 K 7 . 5 K 1 0 . 0 K1 0 - 11 0 01 0 11 0 21 0 31 0 4

Time (

sec.)

| O |

N L B F S C S C - ρ M C

图 4.18 |O|对计算效率的影响 [合成数据集]Figure 4.18 Efficiency vs. |O| on Synthetic Data


本节省略了与4.5.2.3节对应部分呈现类似趋势的 k、|Q|、∆t的计算效率分析，并主

要关注不同 |O|值对算法挖掘性能的影响。图4.18展示了 |O|从 2.5K到 10K时各算法运

行时间的变化情况。容易看出，更多的移动对象会导致每种方法的运行时间变长，而MC

需要的时间明显高于其它方法。当 O中包含 10K对象时，NL需要大约 15.2s才能返回挖

掘结果，而具有更强数据剪枝能力的 BF只需要 8.1s左右。虽然简单计数方法在计算上稍

快一些，但它们的有效性比 BF要差得多，对应结果将在4.5.3.3节进行展示。

4.5.3.3 结果有效性评估

通过变量控制的方法，本节对 BF、SC、SC-ρ和MC的结果进行了比较和分析，得出

以下实验结论：

k对结果效力的影响根据图4.19(a)可知，BF的 Kendall系数 τ 在 k值达到 5前始终

高于 0.93，表明其前 5结果与真值基本吻合。随着 k的进一步增大，τ 会降低，这是因为

算法需要对更多语义位置进行流量计算和排序。尽管如此，当 k 增大到一定数量后，结

果的有效性会再次提升。由于 |Q|在测试中是固定的，足够大的 k往往会在挖掘结果中包

含更多的真实热点位置。总的来说，BF的 τ 始终高于 0.77，并在测试中优于 MC。参考

图4.19(b)，当增大 k时，BF和MC的召回率降低，但 BF优于MC且始终高于 0.89。请注

意，与 BF和MC相比，SC和 SC-ρ的有效性度量都非常低。这一现象在下列实验结果中

仍可看到。

|Q|对结果效力的影响根据图4.20可知，对于所有方法，由于需要考虑更多的语义位

置，其两项度量值都随着 |Q|的增大而减小。这其中，BF下降得比MC慢；它的 τ 始终高

于 0.74，当 |Q|增大到 12%时，它的召回率高于 0.83。

|O|对结果效力的影响根据图4.21可知,所有方法的两个有效性度量都只受到 |O|值

的轻微影响。此外，BF的度量值都处于最高，这表明我们的挖掘结果在大规模移动对象

的数据上仍然有效。

∆t对结果效力的影响根据图4.22可知，BF和 MC的有效性度量都随 ∆t的增大而

84


降低，但 BF仍优于MC。正如4.5.2.4节中讨论的那样，较大的∆t趋于产生更为有效的可

能路径，从而提高流量计算的准确性；但较大的 ∆t也倾向于扩大对象的 PSL，从而降低

排序的精度。因此，当∆t增大时，BF的两个度量都会略微下降。上述结果验证了本章的

BF方法在较大 ∆t值的设定下仍可进行热点语义位置的挖掘。

5 1 0 1 5 2 0- 0 . 10 . 00 . 10 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 91 . 0

5 1 0 1 5 2 00 . 40 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

k


Reca

ll

k

图 4.19 k对结果效力的影响 [合成数据集]Figure 4.19 Effectiveness vs. k on Synthetic Data

4 8 1 2- 0 . 3- 0 . 2- 0 . 10 . 00 . 10 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 9

4 8 1 20 . 40 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

| Q | ( % )


Reca

ll

| Q | ( % )

图 4.20 |Q|对结果效力的影响 [合成数据集]Figure 4.20 Effectiveness vs. |Q| on Synthetic Data

2 . 5 K 5 . 0 K 7 . 5 K 1 0 . 0 K- 0 . 10 . 00 . 10 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 91 . 0

2 . 5 K 5 . 0 K 7 . 5 K 1 0 . 0 K0 . 40 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

| O |


Reca

ll

| O |

图 4.21 |O|对结果效力的影响 [合成数据集]Figure 4.21 Effectiveness vs. |O| on Synthetic Data

1 5 3 0 4 5 6 0 7 5 9 0 1 0 5 1 2 0- 0 . 2- 0 . 10 . 00 . 10 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 91 . 0

1 5 3 0 4 5 6 0 7 5 9 0 1 0 5 1 2 00 . 40 . 50 . 60 . 70 . 80 . 91 . 0( a )

Kend

all Co

efficie

nt

∆t ( m i n . )


Reca

ll

∆t ( m i n . )

图 4.22 ∆t对结果效力的影响 [合成数据集]Figure 4.22 Effectiveness vs. ∆t on Synthetic Data

4.6 本章小结

本章提出并解决了从一组用户给定的室内语义位置中挖掘特定时间段内 top-k热点语

义位置的问题。本章方法使用了具有时空不确定性的历史室内定位数据，其中每个移动对

象在过去某时刻的位置被描述为一组概率样本。为从上述的不确定移动数据中获得可靠

的室内流量值，我们充分考虑了移动数据的时空不确定性特点和室内拓扑结构对对象移

动的约束，并建立了有效的室内流量定义及计算模型。为提升流量计算的效率，我们提出

了加速相关数据访问的数据结构，减少中间处理数据量的数据规约方法，及总体的室内

流量计算算法。利用上述的流量计算方法，我们设计了高效的 top-k热点语义位置挖掘算

法。最后，我们使用合成数据集和真实数据集对提出的方法进行了全面的实验评估。结果

表明，本章提出的数据规约方法可明显降低中间计算的数据量；提出的室内热点语义位置

挖掘算法是高效、可扩展的，在移动数据具有较高不确定性的情况下，仍能返回与真实情

况高度一致的一组热点语义位置。

85

浙江大学博士学位论文第五章室内移动语义挖掘方法


5.1 引言

室内移动数据的日益增长，也吸引了移动行为分析领域研究者的目光。通过对室内定

位系统采集的移动数据进行分析，可以挖掘出过去很难或根本无法获得的重要知识。典型

的应用如室内热点位置 [15,18]或路线 [12,14]发现、移动模式挖掘 [8,11,60]，及店内营销（in-store

marketing）[25,30] 等。这其中，有一类移动分析侧重于语义层面——提出的问题诸如 “

”或 “

”。为更好地进行这些问题的应答，我们需要从室内定位数

据中提取与移动相关的语义信息。

在本章的研究中，我们使用了一种从无线定位技术 [34,46] 中获取的室内移动数据。具

体而言，某一对象（手机用户）的移动数据包含一组原始定位记录，这些记录天然地具有

空间上的测量误差且在采样时间上是稀疏的。每条原始记录 (o, x, y, f, t)表示对象 o在 t

时刻的位置被估计在楼层 f 的某一点 (x, y)处。由于原始数据并未明确给出特定的语义，

我们需要将原始数据转换为准确的、更具信息量的数据表征。受到 GPS 语义轨迹 [130,133]

的启发，我们采用了如下示例的室内移动语义格式：

o1 : (stay,Nike, 1:02pm-1:18pm)→ (pass-by,Adidas, 1:19pm-1:20pm)

→ (stay,Cashier, 1:21pm-1:24pm)

其中，移动对象 o1的行为可用一列结构化的（mobility semantics）表示，其包括

移动事件标注（stay或 pass-by事件）、空间标注（如 Nike店铺这样的语义区域）和时间标

注（一段时间间隔）。由于移动语义中的标注与室内语义区域和移动事件相挂钩，因而在

实际应用场景中其相较于原始数据更易于理解和使用。

然而，从原始室内定位记录中挖掘移动语义仍是一项极具挑战的任务，主要原因有三

方面：

(1) 由于无线信号传输中无法预知的干扰因素，无线定位获得的原始移动数据非常

“脏”，尤其是当基础设施主要服务于无线通讯而采用普通传感器（如Wi-Fi接入

点）时 [25,30]。图5.1展示了一组在杭州某购物中心获得的 Wi-Fi 定位数据。根据

87

第五章室内移动语义挖掘方法浙江大学博士学位论文

图5.1(a)可知，对于每 10秒采样一次的某移动设备，其每 10分钟计算的平均定

位误差（APE, Average Positioning Error）的波动非常大。此外，如图5.1(b)所示，

两个采样设备 d1和 d2的定位结果中出现了许多错误的楼层值。因此，在构建语

义元组之前，必须小心地对这些数据错误进行处理。

(2) 室内空间中容纳了大量密集的实体元素，包括房间、门和障碍物（如墙壁）等，这

使得对象的运动变得复杂而难以进行标注。如果这一过程中涉及到移动数据的错

误，则情况会变得更糟。

(3) 由于移动设备倾向于关闭无线开关以满足节能需求，因而室内定位记录常常是稀

疏和离散的。从稀疏的定位数据中获得完整的移动语义序列是很难的，这是因为

未观测的对象运动初看起来就具有多种可能性。

总而言之，室内移动数据固有的时空不确定性——位置误差大、采样时间稀疏，以及

复杂的室内上下文环境给本章的移动语义挖掘带来了极大的挑战。

07 08 09 10 11 12 13 14 15 16Jan 2017

0

5

10

15

20

25

APE (

mete

r)

(a)

APE in every 10 min.

16:55 17:15 17:35 17:55 18:1507 Jan 2017

1

2

3

4

5

6

7

Floor

Valu

e

(b)

d1's ground truth

d1's floor error

d2's ground truth

d2's floor error

图 5.1 真实世界中室内定位的数据错误示例

Figure 5.1 Real-world Indoor Positioning Data Errors

示例 5.1 5.2 S1 hw-f

(x, y)

9:05am-9:15am

9:16am hw-b 9:19am hw-d

为解决上述挑战，本章提出了一个三层模型用于从原始室内定位数据中挖掘构建对应

的用户移动语义。在该模型中，任务被分解到三个功能层中完成，每一层都配备了适用技

术以促进数据的处理过程。首先，层（cleaning layer）考虑了室内移动性约束的特性

以对原始定位序列进行预处理。随后，层（annotation layer）根据对象潜在的移动事

件将每条定位序列分割为多个片段（snippet），而每一片段可通过语义匹配转换为移动语

88


S2

hw-b

9:05am-9:15am

9:20am-9:42am

9:19am

S1

9:16am

S5

hw-d

location

estimate

hallway

room

door

hw-a

hw-c

hw-f

hw-e

hw-gS4

S3

图 5.2 室内平面图示例

Figure 5.2 Example of Indoor Floorplan

义。最后，为恢复生成序列中缺失的移动语义，层（complementing layer）通过已获得

的移动语义来构建室内移动的先验知识，并在构建的移动知识上使用基于推断的方法来

生成缺失的移动语义。概括而言，本章研究工作的主要贡献如下：

(1) 本章提出了利用时空和语义不确定的原始室内定位数据进行移动语义挖掘的问

题，并设计了一个三层的挖掘模型来解决这一问题。

(2) 本章设计了一项移动数据清洗方法，可根据室内移动性约束对原始定位数据进行

清洗以提升数据质量。

(3) 本章设计了一种分割匹配（split-and-match）方案对清理后的定位序列进行语义标

注，包括基于密度的定位序列分割方法和针对分割片段的语义匹配方法。

(4) 本章提出了一种概率推理方法，借助室内移动性、室内拓扑和已获得的移动语义

的相关知识来恢复缺失的移动语义。

(5) 本章同时采用真实数据集和合成数据集对提出的方法进行了全面的实验评估，并

充分验证了提出方法的有效性和高效性，以及构建的移动语义的可用性。




在本章问题设定中，室内定位系统不定期地报告某一移动对象 o 的定位记录 θ =

(o, l, t)，其中 l为位置估计（location estimate）、t为时间戳，表示对象 o在 t时刻的位置估

计为 l。在大多数定位系统 [46,58,137]中，θ.l表示为三元组 (x, y, f)，即楼层 f ∈ N中的二维

平面点 (x, y) ∈ R2。室内定位记录存储在（Indoor Positioning Table, IPT）

中，如表5.2所示。

本节首先给出 (indoor positioning sequence, p-sequence)的定义。

89


表 5.1 室内移动语义分析挖掘方法符号表

Table 5.1 Notations for Indoor Mobility Semantics Mining Approach

符号意义

o 移动对象θ = (o, l, t) 对象 o的定位记录Θo 对象 o的定位序列r ∈ R 室内（语义）区域τ = [ts, te] 时间段δ ∈ {stay, pass-by} 一般性的移动事件λ = (π, τ, δ) 移动语义Λo = ⟨λi, . . . , λj⟩ 对象 o的移动语义序列PT = ⟨ri, . . . , rj⟩ 移动语义序列的区域模式ϕ = rs → . . .→ re 室内候选路径distI(ls, le) 最短室内行走距离distgr(rs, re) 确保到达距离

定义 5.1 (室内定位序列) IPT T = [ts, te] o T

Θo,T ti

(oi, li, ti)

根据表5.2可知，对象 o1在 T = [t1, t4]时间段内的 p-sequence为 ⟨(o1, (2.5, 10.7, 1), t1),

(o1, (2.3, 11.2, 2), t4)⟩。当时间上下文明确时，我们将对象 o的 p-sequence写为 Θo。

表 5.2 室内定位结果表

Table 5.2 Indoor Positioning Table

o l(x, y, f) to1 (2.5, 10.7, 1) t1o2 (5.1, 38.5, 4) t1o1 (2.3, 11.2, 2) t4

5.2.2 问题定义

以下正式地给出的定义。

定义 5.2 (移动语义，Mobility Semantics) Θ∗o ⊆ Θo o

移动语义 λ(π, τ, δ) π τ

[ti, tj] δ E(Θ∗o)

用作空间标注的（indoor region）通常由数据分析师根据特定的语义预先进

行定义。例如，室内区域可以是商场中的收银台或店铺等。从本质上讲，室内空间亦可自

然地被墙壁和门分隔成像房间和走廊这样的室内分区（indoor partition）。为简单起见，我

90


们假设每个室内区域由一个或多个室内分区组成À。当上下文明确时，本章使用区域来指

代室内区域。

（mobility event）指的是一些兴趣运动模式。现有的模式如 stop/move [133]多

被用于描述地理空间中的运动，如汽车在道路上移动或人在公园中停止。与地理空间相

比，室内空间由密集和小得多的室内区域组成，这些区域通常根据不同用途被划分（如会

议室和餐厅）。使用 stop/move不能很好地反映语义丰富的室内区域内部或它们之间运动

的基本目的。为提供更丰富的语义信息，我们提出了两个一般的室内移动事件（stay）

和（pass-by）。具体而言，停留表明室内对象已经在某个区域滞留了一段时间，以完

成在该区域的特定目的。例如，停留可以是顾客在鞋店中花费半小时选择并购买一双新

鞋。相比之下，路过表明一个对象仅仅途径一个区域，但未进行与该区域相关的活动。例

如，用户在到达她购买鞋子的店铺前可能经过许多其它店铺。停留和路过的区别在特定室

内场景中非常有用。例如，安防管理人员可能仅对停留在某个特定室内区域的人感兴趣，

而商场经理可能希望同时了解停留和路过顾客的情况以分析某个区域投放广告的效果。

我们使用（event identification function, E-function）来区分停留和路过，

相关内容将在5.4.2.1节进行介绍。E-function的实现采用了基于学习的机制，可从用户标

定的移动事件中提取时空特征完成模型的训练。被标注为停留/路过事件的移动语义称为

停留/路过语义，表示为 λq/λ▷，对应的区域称为停留/路过区域，表示为 rq/r▷。

以下定义（mobility semantics sequence, ms-sequence）和本章研究问题。

定义 5.3 (移动语义序列) o T 移动语义序列

Λo,T λi, λj ∈ Λo,T λi.τ ⊆ T , λj.τ ⊆ T , λj.τ ∩λj.τ = ∅

问题 5.1 (室内移动语义挖掘) IPT T R IPT

oi 室内移动语义挖掘 oi p-sequence Θoi,T = ⟨θi1, . . . , θin⟩ ms-sequence

Λoi,T = ⟨λi1, . . . , λim⟩

构建移动语义序列提供了一种直观、简洁的方式来理解室内移动对象的一般行为，因

此也是进行上层的室内行为分析的必要基础。然而，移动语义挖掘的主要挑战是输入数据

的质量十分低，仅能提供非常有限的信息。为此，我们设计了一个三层的挖掘模型，来逐

步提升数据质量并最终构建出有效的室内移动语义。

À给定室内区域不互相重叠的假设，本章技术允许室内区域由多个室内分区（或其一部分）组成。

91


5.2.3 移动语义挖掘模型

如图5.3所示，本章提出的模型以每个移动对象的 p-sequence为输入，并产生对应的

ms-sequence。数据的处理需要经过以下三个功能层。

• 清洗层对每条 p-sequence中的数据错误进行处理，其通过充分考虑记录在距离敏感

模型（distance-aware model）中的室内移动性约束来进行数据清洗；

• 标注层首先使用密度聚类的方法将每条 p-sequence 分割为一组数据片段，并在 E-

function和（semantic region graph）模型的基础上，利用语义匹配将每个

分割片段转换为一组移动语义；

• 补全层对标注层获得的每条原始 ms-sequence进行数据补全。通过充分利用所有已

标注的移动语义，（mobility knowledge）被构建出来。随后，利用移动知识

进行概率推断，每条 ms-sequence缺失的移动语义被生成并插入到原始序列中。

p-sequence

Complementing

Annotation

Cleaningeach moving object

Mobility Constraint

based Cleaning

Density based Splitting

Semantic Matching

Knowledge

Construction

M-Semantics Inference

snippets

indoor

distance-

aware model

semantic

region graph

Mobility

Knowledge

original ms-sequence

ms-sequences

IPT

+ missing m-semantics

ε-function

input

output

+ +

图 5.3 移动语义挖掘模型

Figure 5.3 The Mobility Semantics Construction Model

5.3 基于室内移动性约束的原始定位序列清洗

如图5.1所示，由于无线定位的局限性 [51,52]，原始的室内定位数据中包含了固有的错

误信息，典型的错误形式如下：

(1) （random errors）即与真实位置的微小偏差。随机误差是由无线信号的

不精确测量引起的，后者容易受到诸如温度、湿度、窗口开闭等因素的影响 [137]；

(2) （location outliers）即与真实位置的重大偏差。当移动客户端突然无法

接收到附近发射端的信号时会发生这种情况。本章的位置异常值是在同一楼层范

92


围内进行讨论的；

(3) （false floor values）通常出现在多层定位系统中，当移动客户端从其

它楼层的发射器接收到更强信号的情况下容易出现楼层的错误估计。

上述数据错误严重地阻碍了后续的移动语义挖掘过程。因此，我们必须尽量对数据错误进

行识别和修复，以降低它们带来负面影响。

5.3.1 室内定位错误识别与修复

通常，室内对象的移动须符合一般的（mobility constraints）。例如，对象

（通常是人）不能在室内运动得太快——短时间隔内定位数据的显著变化往往意味着位置

异常值或错误楼层值。并且，对象只能通过类似门的出入口在室内分区间移动。考虑到室

内拓扑下两个定位位置间的移动速度，我们也可识别出部分跳跃到其它分区的随机错误。

图5.4给出了具体的示例。假定对象 o的 p-sequence为 ⟨(o, l1, t1), (o, l2, t2), (o, l3, t3)⟩且 t1时

刻的位置估计 l1 为有效的（valid）。给定最大移动速度 Vm 和特定的室内拓扑，o在 t2 时

刻的位置一定在以 l1为中心、Vm · (t2 − t1)为半径的圆形区域的阴影部分中。由于 o在 l2

的位置估计已经落在该阴影部分外部，可知 l2为错误的估计值。

Vm·(t2-t1)

Vm·(t3-t2)

l3

l2'

l2

possible

positions at t2 d1

l1

图 5.4 原始室内定位数据清洗示例

Figure 5.4 Example of Cleaning Raw Indoor Positioning Data

为对两个定位位置间的对象移动速度进行计算，我们采用了文献 [80] 中的

（indoor distance-aware model）来计算任意两个位置间的最小室内行走距离（Mini-

mum Indoor Walking Distance, MIWD）。在图5.4中，位置 l1到 l3的MIWD，记为 distI(l1, l3)，

计算为两段欧氏距离 |l1, d1|和 |d1, l3|的和，其中 d1为对象从 l1到达 l3需通过的门。

MIWD集成了室内拓扑与几何相关的移动性约束，在 MIWD的基础上我们可以通检

查室内对象速度来识别定位数据的错误。形式化地，对任何两个连续定位记录 θi, θi+1，它

们间的室内移动速度 v = distI(θi.l,θi+1.l)θi+1.t−θi.t

不能超过给定的最大速度条件 Vm。换句话说，假设

我们正向地对 p-sequence进行检查，且已知上一条定位记录 θi−1是有效的，在当前定位记

录 θi违反上述速度约束的情况下，可判定其为无效。

93


当识别出一条无效记录 θi 时，其位置估计中的错误可能发生在楼层部分（即错误楼

层值）和/或平面位置部分（即位置异常值或随机误差）。我们分两步对其进行修复：

(1) 首先修复 θi 楼层部分的潜在错误。如果 θi 的楼层值与上一条有效记录 θp 相同（p ≤

i− 1），我们将其修改为 θp 的相同值。如果违反速度约束的情况不再发生，这一修改

就会生效；否则，数据错误仍存在于平面位置部分。

(2) 通过插值一个新的位置估计来修复定位错误。对当前记录 θi，我们分别找到其上一个

和下一个有效的定位记录，令其分别为 θp 和 θs（s ≥ i + 1）。由于无法获知该对象在

两个有效记录间移动的情况，我们假定对象以恒定速度沿位置 θp.l和 θs.l间的最短室

内路径进行行走。这一假设简化了插值过程，但仍符合室内移动性的约束。故而，给

定时间戳 θi.t，对应的新位置估计可插值为 θp.l到 θs.l的最短室内路径上的一点 l，其

满足 distI(θp.l, l) = θi.t−θp.t

θs.t−θp.t· distI(θp.l, θs.l)。

参照图5.4，通过速度检查可分别判定 l2和 l3为无效和有效的。此外，由于 l2的错误存

在于平面位置部分，我们通过上述第 (2)步进行修复。确切地说，如果 l1和 l3已被确定为有

效，那么 t2时刻的可能位置一定位于蓝色相交阴影部分内。为简化计算，我们在 l1和 l3的最

短室内路径上对 t2时刻的对象位置进行插值，得到估计值 l′2满足 distI(l1, l′2)/distI(l′2, l3) =

(t2 − t1)/(t3 − t2)。可简单证明得出，插值点 l′2必在蓝色阴影部分内。

5.3.2 定位序列清洗算法

算法5.1给出了清洗方法的整体过程。为便于阐述，我们假定 p-sequence中首元素是

有效的。当然，算法也可从全局检查找到的任一有效位置点开始进行（前/后向的）处理。

5.4 基于分割匹配的移动语义标注

本节提出了一种分割匹配（split-and-match）的方案来对清洗后的定位序列进行移动

语义标注。方案首先将定位序列分割成多个数据片段，每个片段都对应于一个潜在的移动

事件（即5.2.2节中引入的停留或路过）。接下来，在每个分割片段中，我们通过匹配三个

标注（参见定义5.2.2）来构建语义元组。整个过程如算法5.2所示，5.4.1小节给出了基于时

空密度聚类的序列分割方法 DensityBasedSplitting（行 2调用），而5.4.2小节则介绍了语义

匹配方法 SemanticMatching（行 5调用）。

5.4.1 基于密度的序列分割方法

由于室内对象的运动可看作 stay和 pass-by事件的混合序列，一种自然的分割方式是

将 p-sequence划分为当对象被认定是相对静止（停留）时的片段及被认为在移动（路过）

94


算法 5.1 MobilityConstraintCleaning(P-sequence Θo, Maximum moving speed Vm)1 time-ordered sequence Aθ ←− ⟨⟩2 current valid positioning record θ ←− head(Θo)3 for each positioning record θ ∈ Θo \ head(Θo) do4 valid←− True5 if ValidSpeed(θ, θ) is False then6 (x, y, f)←− θ.l; (x, y, f)←− θ.l; θ.l←− (x, y, f)

7 if ValidSpeed(θ, θ) is False then8 add θ to Aθ; valid←− False9 if valid then

10 A′θ ←− Interpolation(θ, Aθ, θ)

11 add all positioning records in A′θ to Θ′

o

12 Aθ ←− ⟨⟩; θ ←− θ

13 add θ to Θ′o

14 return Θ′o

15 function ValidSpeed(θ, θ) ▷ Check object speed16 v←− distI(θ.l, θ.l) / (θ.t - θ.t) // compute the MIWD17 if v ≤ Vm then return True else return False18 function Interpolation(θp, Aθ, θs) ▷ Interpolate new location estimate19 A′

θ ←− ⟨⟩; add θp to A′θ

20 compute a shortest indoor path pa from θp.l to θs.l21 for each positioning record θ′ ∈ Aθ do22 find a location l on pa having distI(θp.l, l) = θ′.t−θp.t

θs.t−θp.t· distI(θp.l, θs.l)

23 θ′.l←− l; add θ′ to A′θ

24 return A′θ

算法 5.2 SplitMatchAnnotation(P-sequence Θo, Event identification function E , Semantic regiongraph GR)

1 time-ordered sequence Λo ←− ⟨⟩2 Asnpt ←− DensityBasedSplitting(Θo)3 for each snippet Θ∗

o in Asnpt do4 Λ∗

o ←− SemanticMatching(Θ∗o, E , GR)

5 Λo ←− Λo ∪ Λ∗o

6 return Λo

时的片段。一种用于 GPS数据的 SMoT（Stop and Move of Trajectory）方法 [131] 考虑基于

两个连续记录间的即时速度（instant speed）来分割 GPS序列。给定速度阈值 ψ，即时速

度低于 ψ的片段被视为停留事件，反之则被看作路过事件。然而，SMoT不足以处理室内

p-sequence：一方面，室内移动相对较慢，因此很难选择合适的 ψ阈值来区分停留和路过

事件；另一方面，室内定位数据通常具有较低的采样率，简单计算即时速度不能良好地反

映实际的移动情况À。

À本章5.3节提出的清洗方法不受这种情况的影响，它只对违反速度约束的一部分明显的数据错误进行识别。

95


除速度信息外，我们从停留事件中观察到，其包含的定位记录在位置估计值和时间戳

的距离上都较为紧凑（compact）。受此启发，我们提出了一种基于密度聚类的方法来形成

多个定位记录簇（cluster）并基于这些簇对定位序列进行分割。具体而言，每一簇中包含

的定位记录形成一个密集片段（dense snippet），而两个簇之间的连续记录形成一个非密集

片段（non-dense snippet）。ST-DBSCAN [142]是一种能够根据空间和时间属性对数据实例进

行聚类的算法，需要三个参数：(1) ϵs为空间属性的距离阈值；(2) ϵt为时间属性的距离阈

值；(3) ptm 为一个数量阈值。一个聚类得到的簇必须满足：1)包含至少 ptm 个数据实例；

2)其中任一实例到其它实例的空间距离在 ϵs 内且时间距离在 ϵt 内。为支持室内定位序列

的时空密度聚类，我们对 ST-DBSCAN进行了三方面的扩展：

(1) 考虑到室内拓扑的影响，我们引入了MIWD作为空间属性的距离度量；

(2) 我们构建了自适应的参数 ptm，而非使用常量值。具体而言，ti时刻的 ptm与时间窗口

[ti − ϵt, ti + ϵt]内的采样率相关联。当局部采样率很低时，此时在时间窗口内只观

察到少数定位记录，我们设定一个较小的 ptm；反之，当局部采样率很高时，ptm也相

应地调大。这一方式使定位记录的聚类在采样率动态变化的情况下依然可灵活进行；

(3) 我们引入了两个参数，即（tolerate time span）∆t和（tolerate

spatial distance）∆s，以避免形成小的、碎片化的密集片段。形式化地，对两个密集片

段 ⟨θi, . . . , θj⟩ 和 ⟨θk, . . . , θl⟩，在满足以下条件时需要合并：1) θk.t − θj.t ≤ ∆t；2)

∃s ∈ [i, j],∃t ∈ [k, l], distI(θs.l, θt.l) ≤ ∆s。

上述基于密度的序列分割方法可参见附录A.1中的算法A.1。

示例 5.2 5.5 9:05am-9:15am

D1 ∆s ∆t 9:20am-9:42am

D3 D1 D3 9:16am-9:19am

D2

dense

snippet D1

non-dense

snippet D2

(merged) dense snippet D3

9:05am 9:42am

distI≤Δs time span≤Δt

9:15am 9:20am

9:16am-9:19am

records in a cluster record between clustersrecords in a cluster record between clusters

图 5.5 基于密度的定位序列分割示例

Figure 5.5 Example of Density based Splitting on a P-sequence

96


时空密度信息为定位序列分割提供了很好的参考。但是，直接将密集片段视为停留、

将非密集片段视为路过是不充分的。假定一个对象缓慢地进行移动并以高频率报告其位

置，在此情况下，虽然报告的位置（和时间戳）可以十分紧凑并满足聚类条件，但判定该

对象为停留是错误的。为验证片段是否真正对应于停留事件，需要从其包含的定位记录

中提取更多信息，例如总行走距离和位置估计方差等，进行进一步检查。为此，我们将

在5.4.2.1节中引入了一项室内移动事件的识别技术。

5.4.2 语义匹配方法

5.4.2.1 事件识别函数

为判定一个分割片段对应的潜在移动事件（停留或路过），我们根据监督学习模型设

计了移动事件识别函数（E-function）。具体而言，每个片段（一列原始定位记录）被表示

为一条移动特征向量。特征的抽取考虑了以下几个方面：

• 由于停留事件对应的定位记录常常落在聚类形成的簇中，因此指示片段是

否密集是十分重要的。

• 由于对应的一组位置估计的方差在停留事件中很小，在路过事件中较

大，我们考虑对这些位置估计的方差进行计算。

• 由于室内定位数据通常在对象（移动设备）运动时较为稀疏，因此我们统

计了片段中记录的条数和采样的频率。

• 所有位置估计覆盖的几何形状（即凸包或简化形式的MBR），及形状的面

积和质心。

• 与覆盖范围相交或被其包含的室内区域的 ID，以及与该区域相关记录的

条数（仅考虑前 n个区域）。

• 每两条连续定位记录间行走距离的总和和平均值。

• 每两条连续定位记录间即时速度的最大值、最小值和平均值。

• 研究表明 [14]，人们在室内行走过程中很少进行明显的转向。因此，我们考

虑了转向次数和行走距离的比率以区别出路过事件。

随后，我们采用了逻辑斯蒂回归模型À对停留和路过两种事件进行分类。为了训练模

型，我们从带有 stop或 pass-by标签的片段中提取特征形成训练数据集。当仅有少量标记

数据可用时，我们引入了 co-training机制 [143]，以迭代形式将具有高置信度的预测结果数

据添加到训练集中对分类模型进行强化。

À参见开源软件包 Smile-Statistical Machine Intelligence and Learning Engine，http://haifengl.github.io/smile/。

97


5.4.2.2 语义标注的确定

给定片段 Θ∗o，若满足 E(Θ∗

o) = stay，我们将其转换为一个停留语义，其时间标注确定

为 τ = [head(Θ∗o).t, tail(Θ

∗o).t]。反之，Θ∗

o应与一个或多个路过语义相匹配，这是因为对应

的对象可能通过了不同的室内区域。此时，片段中每一定位记录 θ ∈ Θ∗o 都被映射为一个

路过语义，其时间标注为 τ = [θ.t, θ.t]。

接下来，我们需要为上述的停留或路过语义决定空间标注。本节构建了一个

（semantic region graph）GR，以便于接入一组由用户语义给出的室内区域R（参见5.2.2小

节）。具体而言，GR是一个标号有向图，用五元组 (V,E,Gdist,R2P,P2R)表示：

(1) 图的每个顶点 v ∈ V 为一个室内区域 r ∈ R；

(2) E 为图的边集合 {⟨vi, vj,R⟩ | vi, vj ∈ V }。每条有向边给出了室内区域 vi 到其直

接相连À的另一室内区域 vj 的（guaranteed reaching distance, GRD）；

(3) Gdist为对应的距离敏感模型[80]，其对室内实体元素如门和室内分区进行管理（参

见5.3节）；

(4) R2P : R→ 2P 将一个室内区域（顶点）映射为 Gdist中其包含的一组室内分区；

(5) P2R : P → R将 Gdist中的一个室内分区映射到包含其的一个室内区域。

给定室内区域 ri, rj，以及 rj 的可进入门集合（enterable door set）Á P2D⊐(R2P(rj))，

从 ri至 rj 的确保到达距离可定义为：

distgr(ri, rj) = maxl∈ri,d∈P2D⊐(R2P(rj))

distI(l, d) (公式 5.1)

一般而言，从 ri 到 rj 的 GRD是室内对象从 ri 中最远位置到达 rj 所需的行走距离。

换句话说，当前在 ri 中的任意对象都可在距离 distgr(ri, rj)以内到达 rj 中某处。请注意，

distgr(ri, rj) = distgr(rj, ri)。根据图5.6可知，区域 S1和 hw-b是直接连接的，而 S1和 hw-a

的行走路径必须经过另一个区域 hw-b。令 l ∈ S1 为离 hw-b 的可进入门 d1 最远的一点，

则可知从 S1 到 hw-b 的 GRD 等于 distI(l, d1) = 8m；反之，从 hw-b 到 S1 的 GRD 等于

distI(l′, d1) = 5.5m，其中 l′ ∈ hw-b是距离 S1的可进入门 d1 最远的位置。上述两个 GRD

表明，从 S1这样的较大区域走出的时间通常比从 hw-b这样的较小区域走出的时间要多。

GRD 的这一属性可用于在缺失语义元组补全中为每个推断的区域进行行走时长的分配，

5.5.2.2节将给出这一技术的详细介绍。

图5.7给出了对应图5.2的语义区域图 GR。通过使用 R2P和 P2R映射结构，区域 hw-fÀ如果从一个区域到另一区域的对象移动不涉及到其它的区域，则两个区域直接相连。Á在距离敏感模型 [80] 中，映射结构 P2D⊐ 给出特定室内分区的所有可进入的门。

98


hw-b

8m

5.5m

l

l'd1

S1 hw-a

图 5.6 确保到达距离示例

Figure 5.6 GRD Example

被映射到它所包含的两个分区，而分区 p13被映射到覆盖它的区域 hw-e。此外，可以看出，

目前在 S2中的对象必可在距离 distgr(S2, hw-c) = 9.5m内到达 hw-c。

... ...

hw-e p13

hw-f { p9 ,p12 }

p11

region partition

mappings

... ...

p3

S1 hw-b8m

5.5m

hw-a

4.5m4.5m

S2 hw-c9.5m

5.5m

4.5m4.5m

hw-f5.5m

9m

S35.5m

5.5m

hw-e5.5m

4m

7m3.5m

S45.5m

5.5m

hw-g

hw-d

4.5m

8m

S512.5m

13m

7.5m

3.5m

12.5m

3.5m4.5m

12m

图 5.7 语义区域图模型示例

Figure 5.7 Example of Semantic Region Graph GR

为加快与位置估计值和室内区域相关的空间搜索，我们使用 R-tree对 Gdist 中的室内

分区进行索引。当与给定位置估计相交的分区从 R-tree中找出后，可通过在 GR中定义的

映射得到包含其的语义区域。请注意，这些映射使用户可以仅关注语义区域的定义，而无

需关心与室内物理分区相关的底层空间搜索计算。因此，可使用 GR为相应的定位记录找

到最匹配的空间语义标注。

我们对路过和停留语义的空间标注匹配进行区分。对于路过语义及其相应的定位记

录 θ，我们简单地将包含 θ.l 的室内区域作为其空间标注。具有相同空间标注的连续路过

语义应该合并在一起，它们的时间段进行叠加，这将减少语义元组中可能存在的冗余。

由于涉及到多个对应的位置估计，停留语义的空间标注匹配较为复杂。传统的方法使

用位置估计的质心或采用投票机制来决定对象所在的区域。这些方法假定每个位置估计

都是独立观察的，且在计算对象的潜在停留位置上具有相同的重要性。

事实上，停留在一个地点的对象在其连续的位置估计值间通常仅产生非常小的位移。

如果某个估计值距离其相邻的估计值相当远，则其应该受到了定位随机误差的影响，因此

该估计值不太可靠。受此启发，我们提出了（Location Estimate Confidence，

99


LEC）的概念，该定义在计算对象的停留位置时对各位置估计值赋予不同的权重。

定义 5.4 (位置估计置信度) ⟨θs, . . . , θe⟩

θi.l s ≤ i ≤ e 置信度

conf(i) =(∑θj∈N (i) distI(θi.l, θj.l)

|N (i)|)−1

/ Z (公式 5.2)

N (i) θi k Z 大

1

在以上定义中，我们通过利用每个估计到其它相邻估计的平均 MIWD值来计算其置

信度。通过估算出的置信度，我们将每个位置估计的重要性计算为 ω(i) = conf(i)∑ej=s conf(j) 并确

定对象潜在停留的位置为 l =∑e

i=s ω(i) · θi.l。最后，停留语义的空间标注被确定为包含 l

的语义区域 r ∈ R。

语义匹配的整体过程如附录A.2中算法A.2所示。

示例 5.3 5.5 D1 D2 D3 E-function

9:05am-9:15am D1 5.2

D1 (S1, 9:05am-9:15am, stay)

9:20am-9:42am D3 5.2 (S5, 9:20am-9:42am,

stay) D2 9:16am-9:19am

(hw-b, 9:16am-9:16am, pass-by) (hw-d, 9:19am-9:19am, pass-by)

5.5 基于概率推断的移动语义序列补全

在标注层输出的 ms-sequence中，路过语义可能在时间上是非常稀疏的，暗示着在它

们对应的定位记录间可能还存在着未观测到的信息。为使得到的序列完整和一致，我们提

出了一种概率推理方法来恢复缺失的移动语义。

多项研究 [14,60] 发现，人们常在较小范围内的两个室内目的地间进行非常相似的移动，

且该移动与其行走目的（如寻找某物或仅仅在某处随意走动）无关。这一发现启示我们，

可利用此类相似运动来推断两个相关区域间缺失的移动语义。具体而言，序列中的每个停

留区域可视为室内目的地，而其间构建的多个路过语义可聚合在一起，来捕获两个目的地

间的相似移动。通过进一步考虑室内移动性约束，我们能够根据已经标注的移动语义序列

来推断补全未观察到的移动情况。

如算法5.3所示，补全过程可分为两个阶段。第一阶段（行 2）对两个停留区域（目的

100


地）间的移动知识（相似移动）进行构建。在构建的知识之上，第二阶段（行 3–5）对每条

ms-sequence的缺失语义进行推断。两个阶段的方法分别在5.5.1小节和5.5.2小节进行详述。

算法 5.3 InferenceBasedComplementing(Set of ms-sequences SΛ, Semantic region graph GR)1 set S ′

Λ ←− ∅2 hash tableMK←− ConstructMobilityKnowledge(GR, SΛ) ▷ Construct candidate path sets3 for each original ms-sequence Λo in SΛ do ▷ Infer missing mobility semantics4 Λo ←−MSemanticsInference(Λo,MK, GR)5 add Λo to S ′

Λ

6 return S ′Λ

5.5.1 移动知识构建

给定停留区域 rqs, rqe，关于从 rqs到 rqe的相似运动的（mobility knowledge）由

以下两部分组成。第一部分为容纳这些相似运动的一组候选路径（candidate path），每条路

径由语义区域图 GR中直接相连的区域序列表示。第二部分为候选路径中直接相连区域的

转移概率（transition probability）。以下分别对候选路径集合和转移概率的构建进行介绍。

候选路径集合首先给出的正式定义。

定义 5.5 (室内候选路径) rqs rqe rqs rqe

ϕ = rqs → r▷i → . . .→ r▷j → rqe ϕ r▷k i ≤ k ≤ j

唯一的 ϕ 直接相连的 ϕ 路径长度

L(ϕ) = distgr(rqs, r▷i ) +

j−1∑k=i

distgr(r▷k , r

▷k+1) + distgr(r

▷j , r

qe) (公式 5.3)

distgr GR GRD

引理 5.1 (路径长度与 GRD的关系) ϕ = ri → . . . ,→ rj L(ϕ) =∑jk=i distgr(rk, rk+1) ϕ ri rj 上界

证明 r1 r2 r1 r2 GRD l(s)1 ∈ r1 l

(e)2 ∈ r2

r2 r3 r2 r3 GRD l(s)2 ∈ r2

l(e)3 ∈ r3 o r3 l′1 ∈ r1 r2 r3

l′3 ∈ r3 distI(l′1, l′2) + distI(l′2, l′3) l′2 ∈ r2 o r1 r2

GRD ∀l1 ∈ r1, distI(l1, l(e)2 ) ≤ distI(l(s)1 , l(e)2 ) ∀l2 ∈ r2,

distI(l2, l(e)3 )≤ distI(l(s)2 , l(e)3 ) distI(l′1, l′2)+distI(l′2, l′3)≤ distI(l′1, l

(e)2 )+distI(l′2, l

(e)3 )

≤ distI(l(s)1 , l(e)2 ) + distI(l(s)2 , l

(e)3 ) = distgr(r1, r2) + distgr(r2, r3)

101


ri → . . . ,→ rj ri rj 大∑j

k=i distgr(rk, rk+1) □

我们通过在图 GR上进行 A*搜索 [144]，来获取 rqs到 rqe的候选路径集合 P。由于候选

路径的规模可能很大，我们使用路径长度阈值 γ来过滤那些很长的可能路径，这是由于相

似运动仅在相对较小的范围内进行 [60]。阈值 γ 可通过对两个停留区域间的路径的长度进

行统计分析来确定。在实验中，我们将 γ 设置为 rqs 到 rqe 的最短候选路径长度的两倍——

该值大于所有发现的候选路径。

使用直接相连区域间的 GRD 之和来计算路径长度，可避免在底层的距离敏感模型

Gdist上进行更为复杂的几何运算。此外，该方式也可在 GR中搜索候选路径时帮助剪除不

相关的区域（例如，那些从 rqs到 rqe的 GRD之和大于 γ 的区域）。

示例 5.4 rqs = S1 rqe = S5 S1 S5

29.5m γ 5.7 GR

S1 8m→

1.hw-b 4.5m→ hw-c 4.5m→ hw-d

2.hw-b 4.5m→ hw-c 5.5m→ S4 4.5m→ hw-d

3.hw-b 5.5m→ hw-f 7.5m→ hw-g 3.5m→ hw-d

4.hw-b 4.5m→ hw-a 5.5m→ S3 5.5m→ hw-e 3.5m→

hw-f 7.5m→ hw-g 3.5m→ hw-d

12.5m→ S5

转移概率以下计算候选路径上每两个直接连接区域间的转移概率。给定一组ms-sequence，

起始区域 rqs和结束区域 rqe，我们按以下步骤获得它们的（region pattern）：

(1) 对于每条 ms-sequence，我们找出所有以 λqs起始、λqe结束的子序列，其中语义元组 λqs

和 λqe分别对应于区域 rqs和 rqe；

(2) 对于每条表示为 ⟨λqs, λ▷i , . . . , λ▷j , λqe⟩的移动语义子序列，我们获得其对应的区域模式，

即 PT = ⟨r▷i , . . . , r▷j ⟩À。

我们遍历所有的 ms-sequence 并将获得的区域模式和对应的计数信息记录在哈希表

HPT中。随后，我们计算一个对象离开区域 ri前往直接相连区域 rj 的，如下：

(1) 对 HPT 中每个区域模式 PT = ⟨ri, . . . , rj⟩，我们从候选路径集合 P 中找出一组能够支

持 PT的路径，记对应的集合为 P ′；

(2) 对每条路径 ϕ ∈ P ′，我们根据公式 5.3计算其路径长度 L(ϕ)。由于移动对象在行走中

倾向于选择较短路径 [14]，我们考虑路径 ϕ在 P ′ 内所有路径中的权重 ωϕ 应与 L(ϕ)成

À当上下文明确时，我们省略起始和结束区域 rqs,rqe。

102


反比，计算为 ωϕ = L(ϕ)−1/∑

ϕ∈P ′(L(ϕ)−1)；

(3) 对路径 ϕ中每对直接相连的区域 ⟨rk, rk+1⟩，其对应的得分都增加 ϕ的对应权重得分。

形式化地，score(⟨rk, rk+1⟩) += PT.count ∗ ωϕ，其中 PT.count为HPT中 PT的对应计数；

(4) 当表中所有 PT都处理完毕后，我们计算区域 ri到 rj 的转移概率为：

Pt(ri, rj) =score(⟨ri, rj⟩)∑

r∈Out(ri)score(⟨ri, r⟩)

(公式 5.4)

其中，Out(ri)为对象离开 ri后能够进入的所有直接连接区域的集合。

移动知识的构建过程如附录A.3中算法A.3所示，其接收一批从标注层获取的移动语义

序列，并为每对停留区域找到其对应的候选路径集合和相关区域间的转移概率À。

示例 5.5 5.8 5.4

GR PT = ⟨hw-b, hw-c, hw-d⟩

ϕ1 ϕ2 0.54 0.46 ϕ1

⟨S1, hw-b⟩ ⟨hw-b, hw-c⟩ PT.count ∗ 0.54 = 41 ∗ 0.54

ϕ2 41 ∗ 0.46 HPT

5.8 hw-b

0.65 hw-c 0.12 hw-f

S3hw-a hw-e

S1 hw-b hw-f

hw-c S4 hw-g

hw-d S5

start

region

end

region

〈hw-b , hw-c , hw-d〉count is 41

ϕ1

ϕ2S1 hw-b hw-c S4 hw-d S5

S1 hw-b hw-c hw-d S5 +0.54*41

+0.46*41(path length=35m, weight = 0.46)

(path length=29.5m, weight = 0.54)

8

8

12.5

12.5

4.5 4.5

4.5 5.5 4.5

1.0

1.0

0.23

0.650.12

0.49

0.51

1.01.0

1.0

1.0

1.01.0transition

probability

图 5.8 移动知识构建示例

Figure 5.8 Example of Mobility Knowledge Construction

À实际上，由于使用了路径长度阈值来限定候选路径的搜索，移动知识仅对一小部分区域对进行构建。

103


5.5.2 缺失移动语义推断

给定一条 ms-sequence 中不完整的观测，我们通过两个步骤对缺失的语义进行推断，

即（most-likely path inference）和（time period inference），二

者分别在5.5.2.1小节和5.5.2.2小节进行介绍。对应的算法请参见附录A.4中算法A.4。

5.5.2.1 最可能路径推断

不失一般性地，对于观测到的序列 Λ(o)o = ⟨λqs, λ▷q , λqe⟩，我们的路径推断方法需要找出

一条支持其区域模式 PT(o) = ⟨rqs, r▷q , rqe⟩的最可能路径。

给定为区域对 ⟨rqs, rqe⟩构建的候选路径集合 P，每条支持 PT(o)的路径 ϕ ∈ P 可表示为

rqs → r▷a → . . .→ r▷b → r▷q → r▷c → . . .→ r▷d → rqe，其中 r▷a → . . .→ r▷b 与 r▷c → . . .→ r▷d

为 PT(o) 中两个连续观测区域的（missing sub-paths）。注意，由于定位记录较

为稀疏，PT(o)中连续观测到的区域通常不是直接连接的。

参照移动预测的相关研究文献 [21,145]，我们假定对象在区域间的移动为一阶马尔科夫

随机过程，即移动对象当前所在的区域仅与其上一个通过的区域有关。给定观测模式 PT(o)，

路径 ϕ的后验概率（posterior probability）P (ϕ|PT(o))有如下性质：

P (ϕ|PT(o)) = P (rqs, r▷a , . . . , r

▷b , r

▷q , r

▷c , . . . , r

▷d , r

qe|rqs, r▷q , rqe)

= P (rqs, r▷a , . . . , r

▷b , r

▷q |rqs, r▷q ) · P (r▷q , r▷c , . . . , r▷d , rqe|r▷q , rqe)

=P (r▷q |r▷b )

∏b−1x=a P (r

▷x+1|r▷x )P (r▷a |rqs)P (rqs)

P (rqs)P (r▷q )

·

P (rqe|r▷d )∏d−1

y=c P (r▷y+1|r▷y )P (r▷c |r▷q )P (r▷q )

P (r▷q )P (rqe)

∝ P (r▷q |r▷b )b−1∏x=a

P (r▷x+1|r▷x )P (r▷a |rqs) · P (rqe|r▷d )d−1∏y=c

P (r▷y+1|r▷y )P (r▷c |r▷q )

(公式 5.5)

其中 P (r▷x+1|r▷x )等价于公式 5.4中计算的转移概率 Pt(r▷x , r

▷x+1)。为找出最可能的路径，我

们定义了如下的最大后验概率估计（maximum a posteriori）问题：

arg maxϕ

P (ϕ|PT(o)) = arg maxr▷a →...→r▷b ⊆ϕ

Pt(rqs, r▷a )

b−1∏x=a

Pt(r▷x , r

▷x+1) Pt(r

▷b , r

▷q )

arg maxr▷c →...→r▷d ⊆ϕ

Pt(r▷q , r

▷c )

d−1∏y=c

Pt(r▷y , r

▷y+1) Pt(r

▷d , r

qe)

(公式 5.6)

104


上述问题可利用最大乘积算法（max-product algorithm）[146] 进行求解。通过读取移动

知识中对应的区域转移概率，该算法可找出 PT(o)中两个连续观测区域（如 rqs, r▷q 或 r▷q , r

qe）

间具有最大连乘概率的最优（optimal）子路径。通过将这些最优子路径进行组合，我们可

获得 Λ(o)o 对应的最可能路径。

若未能找到支持 PT(o) 的候选路径，我们将其归结为随机误差引起的区域观测错误。

在此情况下，我们对 PT(o)进行如下修改：对 PT(o)中的任一区域 r′，若候选路径集合 P 中

的任何路径都不包含它，我们将其更改为能被 P 中某一路径包含的 r′的最邻近区域 r′′。

示例 5.6 5.3 PT(o) = ⟨S1, hw-b, hw-d, S5⟩

PT(o)

5.6 S1 hw-b hw-b hw-d hw-d S5

S1 → hw-b hw-b → hw-c → hw-d hw-d → S5 S1 → hw-b →

hw-c→ hw-d→ S5

5.5.2.2 时间段推断

在最可能路径推断中，我们为每两个连续观测的语义元组 λp和 λq找到了一条最优子

路径 ϕ∗ = rp → . . .→ rq。接下来，我们需要为每个区域 rx ∈ ϕ∗匹配一个时间标注（时间

段），来填补 λp与 λq间的空白。对每个此类区域 rx，其时间标注应从 λp和 λq的时间间隔

Tλp,λq = [λp.τ.te, λq.τ.ts]上进行分割。然而，由于在 Tλp,λq 间对象的运动是不可见的，我们

很难完成 rx的时间段分配。此外，由于不同对象的步行速度是不同且变化的，已经获取的

语义序列中的时间标注也很难用于 rx的时间段推断。为简化计算，我们假设对象在 Tλp,λq

中以恒定速度进行移动。由此，我们可使用两个区域间的 GRD来作为参考À对 Tλp,λq 进行

分割，得到 rx 对应的时间段。形式化地，给定路径 ϕ∗ = rp → . . .→ rq 上的一个区域 rx，

其对应的时间段可推断为 τx = [t(x)s , t

(x)e ]，其中：

t(x)s = λp.τ.te +∆t ·∑x

i=p distgr(rp, ri)∑qi=p distgr(rp, ri)

; t(x)e = λp.τ.te +∆t ·∑x+1

i=p distgr(rp, ri)∑qi=p distgr(rp, ri)

(公式 5.7)

上述公式中 ∆t = λq.τ.ts − λp.τ.te即 Tλp,λq 的持续时长。

当 rx的时间段被推断为 τx后，我们需要区分两种情况。如果 rx已经出现在观察到的

语义序列中，则推断的时间段被添加到相应的移动语义中。否则，我们应该生成一个缺失

的元组 (rx, τx, pass-by)，表示该对象已经在时间段 τx内路过了区域 rx。我们将每个生成的

元组添加到原始序列中完成补全。

À根据5.4.2.2节的讨论可知，越大的区域具有更大的 GRD值，从而表示其需要更多时间被通过。

105


示例 5.7 5.6 hw-b→ hw-c→ hw-d

hw-b hw-c hw-d 5.7 9:16am-9:19am

9:16am-9:18am 9:18am-9:19am 9:19am-9:19am hw-b hw-d

(hw-c, 9:18-9:19am, pass-by)

(S1, 9:05am-9:16am, stay)→ (hw-b, 9:16am-9:18am, pass-by)

→ (hw-c, 9:18am-9:19am, pass-by)→ (hw-d, 9:19am-9:20am, pass-by)

→ (S5, 9:20am-9:42am, stay)

5.6 实验结果及分析

本节对提出的室内移动语义挖掘方法进行了实验验证和结果分析。所有算法均采用

Java实现，实验环境为搭载 2.20GHz主频、使用 8GB内存的 Intel Xeon E5-2660服务器。


5.6.1.1 实验设置及度量模型

实验设定从 2017年 1月 1日至 31日，我们在杭州某七层购物中心的Wi-Fi定位系统

中收集了一个真实数据集。在商场营业时间（上午 10点至下午 10点），每天的移动对象数

量（设备MAC地址）和定位记录分别为 7,647和 2,907,904。最后，我们共获得 237,057个

p-sequence。根据对数据集的统计发现，基于 MIWD计算的定位误差在 2到 25米间进行

变化；定位序列的平均采样率约为 1/18Hz，即每 18秒钟可观察到一次设备的位置。我们

对整个室内空间进行分解共得到 3742个室内分区和 6534个门。在商场中，根据应用需求

我们选择了 202家店铺作为语义区域。语义区域图及其相关的室内分区 R-tree维护在内存

中，总共大小仅为 12.6 MB。我们对门到门的最短室内路径进行了预计算，以加速MIWD

和 GRD上的计算，其最大内存开销为 990.8 MB。

由于无从获知设备的真实位置信息，我们开发了一个开源的可视化工具套件À来手动

对 p-sequence进行移动语义标注。在所有手工标注的 ms-sequence中，9,687条序列（包

含 125,544个语义元组）构成了实验中的评估真值，剩余的 1,004条序列（包含 17,322个

语义元组）在 1月 1日被用于 E-function的初始化。具体地，单个停留语义或一组连续的

À请参见项目 TRIPS，https://longaspire.github.io/trips/。

106


路过语义合成一个数据片段并被提取为 28维的特征向量用于模型训练。从 1月 2日到 31

日，我们使用 co-training机制持续地强化 E-function，那些具有最高估计概率（大于 0.9或

小于 0.1）的预测片段在每天结束后被添加到训练集中对模型进行重新拟合。同时，移动

知识也于 1月 1日进行初始构建，并在每天进行更新。实验中共为 10,682个有向区域对

生成了候选路径集合，平均的集合大小为 7.7。我们将移动知识维护在内存中，大小约为

36.1 MB。

度量模型在衡量计算效率方面，由于挖掘模型使用单独线程处理每个对象，我们采用

了处理单个对象数据所需的（average running time）来评估提出的各项方法。

在衡量结果有效性方面，由于移动语义在本文首次提出，我们给出了新的有效性度

量。形式化地，若构建的语义元组 λ 和其对应的真值 λg 满足 λ.π = λg.π, λ.δ = λg.δ,|λ.τ∩λg .τ |

|λg .τ | ≥ η，则称 λ为η- （η-acceptable）。越大的 η 值表明 λ与其真值 λg 更为

接近，因而可更准确、有效地满足应用需求。例如，安全管理应用相较于顾客分析可能需

要更高的 η-可接受语义。因此，我们可将η- （η-acceptable recall）定义为真

值中可以找到对应的 η-可接受语义的比率。当 η = 1时，上述度量等价于召回率。由于很

难找到在空间和时间上几乎完全匹配真值的语义元组，使用传统的召回率在有效性度量

上过于僵化，故而我们提出并使用 η-可接受召回率作为本章主要的度量指标。

5.6.1.2 移动语义标注方法比较

本章提出的移动语义标注方法，记为 Dense-E+LEC，由两个关键模块组成：其一为使

用基于密度的序列分割方法（参见5.4.1小节）和 E-function（参见5.4.2.1小节）的时间-事

件标注器（temporal-event annotator）；其二为使用位置估计置信度（参见5.4.2.2小节）来匹

配停留区域的空间标注器（spatial annotator）。我们通过对上述两个模块进行修改来获得不

同的对比方法。一方面，我们实现了一个基于 SMoT算法 [131]的时间-事件标注器（详细参

见5.4.1小节）；另一方面，我们在空间标注器上使用了不同的区域匹配算法：CTRD方法

对所有位置估计值的质心进行计算并将包含质心的区域作为空间标注，而 VOTE方法则

对落入每一区域的位置估计进行计数并将具有最多估计个数的区域作为空间标注。通过

以上两方面修改，我们组合得到五种对比方法，分别为 Dense-E+CTRD、Dense-E+VOTE、

SMoT+LEC、SMoT+CTRD和 SMoT+VOTE。所有对比方法都加入了清洗层和补全层，它

们在真实数据集上的表现如图5.9所示。

根据图5.9(a)可知，所有基于 Dense-E 的方法都需要比采用 SMoT的方法更多的运行

时间。除去识别移动事件的少量开销，基于密度的分割方法的复杂度为 O(n · logn)，而

107


0

1 0 0

2 0 0

3 0 0

4 0 0 ( a ) E f f i c i e n c y

AVG.

Runn

ing Ti

me (m

s.)

a n n o t a t i o n m e t h o d s

D e n s e - E + L E C D e n s e - E + C T R D D e n s e - E + V O T E S M o T + L E C S M o T + C T R D S M o T + V O T E

η= 0 . 6 η= 0 . 7 η= 0 . 8 η= 0 . 90 . 00 . 20 . 40 . 60 . 81 . 0 ( b ) E f f e c t i v e n e s s

η-acce

ptable

Reca

ll

图 5.9 真实数据集上各标注方法性能对比

Figure 5.9 Performance of Annotation Methods on Real Data

SMoT 仅为 O(n)，其中 n 是 p-sequence 中记录的条数。对比使用相同时间-事件标注器

（Dense-E 或 SMoT）的三种方法可知，使用 LEC的方法在空间标注上耗费最多时间，因其

需要估算每个位置估计的置信度。VOTE对应方法的开销略高于 CTRD，这是因为 VOTE

需要对所有涉及的区域进行排序并选择最好的一个。即便如此，我们的 Dense-E+LEC依

然可在 350毫秒内完成对一条 p-sequence的处理，对大多数分析而言都是较为高效的。

图5.9(b)报告了不同 η设定下的可接受召回率。使用 Dense-E 的方法在有效性度量上

显著高于使用 SMoT的方法，这体现了时空密度信息在分割 p-sequence和识别移动事件时

具有比速度信息更好的效果。无论是与 Dense-E 或 SMoT进行组合，空间匹配算法中 LEC

在不同 η值下的有效性度量都要明显高于 VOTE和 CTRD。

综合以上可知，我们的移动语义标注方法 Dense-E+LEC在计算效率和结果有效性上

取得了不错的平衡，具有良好的性能表现。

5.6.1.3 数据清洗及数据补全的效果

我们将本章提出的完整三层模型 IMS-CACÀ同以下替代方案进行比较。其中，IMS-A

仅包含标注层，两层方法 IMS-CA在标注前加入了清洗层，而另一个两层方法 IMS-AC在

标注层后加入了补全层。请注意，移动语义挖掘中标注层是必要的。我们对上述四种方法

在挖掘过程中的序列平均移动语义个数和 η-可接受召回率进行度量，结果如表5.3所示。

表 5.3 真实数据上数据清洗及数据补全的效果

Table 5.3 Effect of Cleaning and Complementing on Real Data

方法序列平均移动语义个数η-可接受召回率

η=0.6 η=0.7 η=0.8 η=0.9

IMS-A 11.94 0.3555 0.2926 0.2187 0.1642IMS-CA 10.23 0.6615 0.5577 0.3825 0.2825IMS-AC 14.51 0.4645 0.3858 0.2638 0.2155IMS-CAC 14.12 0.8756 0.7828 0.6318 0.4834

显然，由于直接对原始定位序列进行语义标注，IMS-A 的表现最糟糕的。在 IMS-AÀC表示清洗 cleaning，C表示补全 complementing。

108


的结果中，只有 35.6％的真值可以找到 0.6-可接受的语义元组。相比之下，采用了清洗层

的 IMS-CA明显优于 IMS-A；在每个设定下的召回率几乎增加了一倍，并且其序列平均移

动语义个数从 11.94减少至 10.23。这些结果表明我们的清洗方法修复了许多定位数据错

误，并消除了由此产生的错误移动语义。因此，清洗层能改善后续层的输入数据。当比较

IMS-CA和 IMS-AC的结果时，也可观察到加入清洗层的效果，虽然后者产生更多的语义

元组，但其中很多是有问题的，因为它们来自于未清洗的定位数据。因此，IMS-AC在召

回率上远低于 IMS-CA。

IMS-CAC则始终是最好的。当 η为 0.6时，其召回率大于 0.87。并且，48%的真值都

可以匹配到 0.9-可接受的语义元组。这些结果表明，IMS-CAC能产生与实际情况高度一

致的可靠语义元组。借助基于推理的数据补全，IMS-CAC能够恢复出 IMS-CA无法生成

的缺失语义元组。因此，其构建序列的平均语义元组数从 10.23增加到了 14.12。更重要的

是，由于数据清洗和补全的综合作用，IMS-CAC的召回率，相较于 IMS-CA及其它方法，

明显得到提高。总之，完整的挖掘模型可帮助提升真实数据上移动语义挖掘的有效性。

我们还测量了每一层处理对象相关数据所需的平均运行时间，清洁层、标注层和补全

层的时间开销分别为 42.6ms、321.8ms和 11.8ms。由于清洗层和补全层的时间成本相对较

低，同时又显著提升了构建效果，因此将它们纳入挖掘模型中是有益和必要的。

5.6.1.4 连续更新机制的效果

2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 0 2 2 2 4 2 6 2 8 3 00 . 6 00 . 6 50 . 7 00 . 7 50 . 8 00 . 8 50 . 9 00 . 9 51 . 0 0

0.6-ac

cepta

ble Re

call

J a n . 2 0 1 7

I M S - C A I M S - C A w / o D U I M S - C A C I M S - C A C w / o D U

图 5.10 真实数据集上每日更新对结果效力的影响

Figure 5.10 Effectiveness vs. Daily Updating on Real Data

本节研究了在移动语义挖掘过程中使用每日更新模式（daily updating paradigm）的效

果。在每日更新的情况下，前一天标注的移动语义被累积用于重新训练 E-function和更新

移动知识。在不进行每日更新的情况下，E-function和移动知识仅能从 1月 1日的数据中

进行创建。从 1月 2日至 31日，我们测量了 IMS-CA和 IMS-CAC方法在每天构建语义元

组中的 0.6-可接受召回率，未采用每日更新的方法标有 ‘w/o DU’。根据图5.10可知，未采

用每日更新的方法的召回率波动很大，并随着时间的推移总体上降低了；而采用每日更新

109


的方法的召回率则随着天数的增长有所提升直至稳定。当采用每日更新模式时，E-function

和移动知识通过加入更多标注的移动语义而不断增强。此外，IMS-CAC比 IMS-CA提升

得更快，因其额外加入了可定期更新移动知识的补全层。这些结果表明，当原始定位数据

不断流入时，更新 E-function和移动知识是非常有用的。

5.6.1.5 移动语义在查询应答中的表现

本节对挖掘的移动语义在典型查询应答中的能力进行了评估。给定一组室内语义区

域 Q和时间间隔 T，我们引入以下两种 top-k查询：

(1) Top-k （Top-k Popular Region Query, TkPRQ）从 Q中找出在 T 时间

间隔内具有最高访问量À的 k个语义区域；

(2) Top-k （Top-k Frequent Region Pair Query, TkFRPQ）从 2Q中找出

在 T 时间间隔内具有最高同时被访问量的 k个频繁语义区域对。

在诸如热点室内位置发现 [18] 和频繁模式挖掘 [11,60] 等研究中，TkPRQ和 TkFRPQ都

是十分有用的。除使用表5.3中的四种方法挖掘的移动语义外，我们也使用相应的原始数

据或清洗后的原始数据来回答这两项查询，分别记为 RAW 和 RAW-C。我们对上述查询应

答方法采用统一的简单策略，即计算所有查询区域（或区域对）的访问次数，并通过完整

排序来返回 top-k 结果。由于在原始定位数据中没有提供语义信息，我们需要对 RAW和

RAW-C方法进行的翻译。具体而言，如果一个对象的报告位置在 Ts时间段

内一直落在某一区域，则认为该对象访问过该区域一次。根据最优的调参结果，我们将

RAW和 RAW-C中的 Ts分别设为 1.5分钟和 3分钟。

我们对比了上述方法在查询执行时间方面的效率。此外，我们根据实验的移动语义真

值对查询结果真值进行了计算，并基于此评估了上述方法返回查询结果的有效性。具体

而言，我们使用（precision）来衡量返回的 top-k 结果中的 top-k 真值占据的比率。

我们为每种查询类型生成了 20个随机查询，并测试其平均的计算效率和结果有效性指标。

表5.4给出了真实数据实验中查询应答的参数设定，其中粗体为默认值。

查询时间间隔 T 的影响 TkPRQ 和 TkFRPQ 随 T 变化的查询应答效率结果分别在

图 5.11(a)和图 5.11(b)中报告。在所有测试中，四种 IMS方法比 RAW和 RAW-C要快两个

数量级。当 T 增大时，更多数据需要被加载（RAW/RAW-C中的原始定位记录和 IMS方

法中的语义元组），两项查询都需要更多时间来返回结果。由于原始数据的规模远大于语

义元组的规模，RAW和 RAW-C的执行时间比 IMS方法来增长得更快。实际上，一个月内

À在查询上下文中，一次访问等价于一个停留事件。

110


表 5.4 真实数据实验中查询应答的参数设定

Table 5.4 Parameter Settings for Query Answering on Real Data

参数设定

Query Type TkPRQ, TkFRPQT (minutes) 60, 120, 180, 240

k 20, 40, 60, 80|Q| (占所有语义区域的比例) 30%, 50%, 70%

收集的原始定位数据大约为 3.44 GB，而由 IMS-CAC构建的语义元组仅为 220.1 MB。此

外，IMS-CAC的移动语义可在一秒钟内为 TkPRQ和 TkFRPQ返回查询间隔为 4小时的查

询结果。这些结果验证了我们挖掘的移动语义在两个 top-k查询的应答上非常高效À。

图5.12(a)和图5.12(b)报告了对应的结果有效性度量。对两种类型的查询而言，所有

方法的精确率都随 T 的增大而降低。当使用较长的 T 时，查询处理中应考虑更多相关数

据，因而引入更多数据错误使结果效率降低。尽管如此，所有使用数据清理的方法（即

RAW-C、IMS-CA和 IMS-CAC）都只是非常缓慢地下降。其中，IMS-CA和 IMS-CAC始终

优于 RAW-C，表明移动语义中保存的简要信息可很好地捕捉对应的运动情况。此外，当

T 增加到 240分钟时，IMS-CAC挖掘的移动语义在应答 TkPRQ和 TkFRPQ时的精确率

可分别达到 82.8%和 79.1%。

查询 k值的影响 TkPRQ和 TkFRPQ随 k 变化的查询结果有效性分别在图 5.13(a)和

图 5.13(b)中报告。如图 5.13(a)所示，所有方法的精确率随 k的增加而适度提升。由于 |Q|

在测试中是固定的，较大的 k趋于在返回结果中包含更多真值，因此所有方法的精确率都

会提高。显然，IMS-CAC在不同 k值下始终表现最好；当 k达到 60前，其精确率保持在

0.84以上。结果同时验证了本章的数据清洗方法的有效性，采用清洗的方法（即 RAW-C、

IMS-CA和 IMS-CAC）明显优于其它替代方案。另一方面，当 k 增大时，所有方法在应

答 TkFRPQ的结果精确率上都保持稳定。不同于 TkPRQ，TkFRPQ需要从 |2Q|个候选区

域对中找到 k个频繁区域对，其基数明显大于 TkPRQ中候选区域的数量。在这种情况下，

将 k 从 20增加到 60并不会影响这些方法的精确率。尽管如此，IMS-CAC挖掘的移动语

义仍是在不同 Q设置下应答 TkFRPQ的最好输入。

查询集合大小 |Q| 的影响 TkPRQ 和 TkFRPQ 随 |Q| 变化的查询结果有效性分别在

图 5.14(a)和图 5.14(b)中报告。根据图 5.14(a)可知，由于需要计算和排序更多查询区域，

增加 |Q|会降低所有方法对 TkPRQ的应答精确率。但相较于其它选择，我们的整体模型

IMS-CAC的精确率仅略有下降，这表明其挖掘的语义元组对应答热点区域查询非常有效。

À以下参数调节中仅对返回结果的有效性结果进行报告。

111


当增加 |Q|时，那些未采用数据清理的方法的精度比处理清理数据的方法的精度要下降得

更快。另一方面，每种方法对 TkFRPQ的应答精度对 |Q|也是不敏感的。在数据收集的购

物中心中，最频繁的区域对始终来自于购物者最常访问的店铺中。因此，当 k在在查询中

被固定时，加入更多候选语义区域不会影响返回的结果。

综合上述对参数 T、k以及 |Q|的测试结果，可以发现：由本章的挖掘模型 IMS-CAC

构建的移动语义可高效、有效地应答上述两类典型室内查询，并明显优于其它替代方案。

6 0 1 2 0 1 8 0 2 4 01 0 1

1 0 2

1 0 3

1 0 4

1 0 5 ( a ) T k P R Q

Exec

ution

Time

(ms.)

T ( m i n . )

R A W R A W - C I M S - A I M S - C A I M S - A C I M S - C A C

6 0 1 2 0 1 8 0 2 4 01 0 1

1 0 2

1 0 3

1 0 4

1 0 5 ( b ) T k F R P Q

Exec

ution

Time

(ms.)

T ( m i n . )

图 5.11 T 对查询应答效率的影响Figure 5.11 Query Answering Efficiency vs. T

6 0 1 2 0 1 8 0 2 4 00 . 50 . 60 . 70 . 80 . 9

6 0 1 2 0 1 8 0 2 4 00 . 50 . 60 . 70 . 80 . 9( a ) T k P R Q

Precis

ionT ( m i n . )

R A W R A W - C I M S - A I M S - C A I M S - A C I M S - C A C( b ) T k F R P Q

Precis

ion

T ( m i n . )

图 5.12 T 对查询应答效力的影响Figure 5.12 Query Answering Effectiveness vs. T

2 0 4 0 6 0 8 00 . 40 . 50 . 60 . 70 . 80 . 9

2 0 4 0 6 0 8 00 . 5

0 . 6

0 . 7

0 . 8

0 . 9( a ) T k P R Q

Precis

ion

k


Precis

ion

k

图 5.13 k对查询应答效率的影响

Figure 5.13 Query Answering Effectiveness vs. k

3 0 5 0 7 00 . 5

0 . 6

0 . 7

0 . 8

0 . 9

3 0 5 0 7 00 . 5

0 . 6

0 . 7

0 . 8

0 . 9( a ) T k P R Q

Precis

ion

| Q | ( % )


Precis

ion

| Q | ( % )

图 5.14 |Q|对查询应答效力的影响Figure 5.14 Query Answering Effectiveness vs. |Q|


为进一步验证本章方法在不同程度的数据不确定性（如采样稀疏导致和定位误差导

致的时空不确定性）上的性能表现，本节利用数据生成工具集 Vita [137]对室内定位数据集

进行了模拟生成，具体设置如下：

空间的生成采用了同第三章3.5.2.1小节相同设定，得到一个带有 4个楼梯间、1410个

室内分区和 2200扇门的十层建筑。其中，423个语义区域从上述室内分区中随机选择得

到。我们进行了周期为 4小时的室内对象模拟。具体而言，10K对象被随机分配在空间中，

其生命周期从 10秒到 4小时不等。对象的最大速度为 Vmax = 1.7m/s，运动符合随机路点

移动模型 [138]——每个语义区域被视为一个目的地，对象沿着最短的室内路径向目的地移

动，在到达后进行 1秒到 30分钟的停留，并再次向随机决定的下一目的地移动。在整个

过程中，对象的模拟行为被记录为移动语义的真值，即停留或前往一个目的地被分别视作

一个停留或路过事件。我们共从 10K对象的ms-sequence中获得 998,618个语义元组真值。

112


合成的 IPT根据上述真值信息进行如下方式的维护：在对象向 IUPT发送位置更新后，

它将保持最多 T 秒的静默状态，其中 T 即4.5.2节中定义的最大定位周期。每个对象位置

报告都在其真实位置的 µ米以内，楼层错误值和位置异常值分别以一定概率（3%和 3%）

加入到位置估计中，楼层错误值在真实楼层值的上下两层之内，异常值则随机在距离真实

位置 2.5µ-10µ的距离范围内生成。为测试采样稀疏和定位误差分别带来的影响，我们调

节 T 和 µ值，并得到如表 5.5所示的合成 IPT实例。

表 5.5 合成室内定位结果表实例

Table 5.5 Synthetic IPT Instances

IPT实例参数设定生成定位记录数量

T5µ3 T = 5s, µ = 3m 15,231,971T5µ4 T = 5s, µ = 4m 15,230,508T5µ5 T = 5s, µ = 5m 15,218,742T10µ3 T = 10s, µ = 3m 7,416,906T15µ3 T = 15s, µ = 3m 4,945,824

语义区域图 GR、门到门的最短室内路径和移动知识的内存开销分别为 13.6 MB、458

MB和 48 MB。我们随机选择 3%的真值 ms-sequence来训练 E-function，其余序列（包括

968,660个语义元组）被用作测试数据。

移动语义挖掘的有效性我们使用不同 IPT实例对表5.3中四种方法进行了测试。我们

设置中等的参数 η = 0.7来衡量构造的移动语义和其对应真值间的一致性。首先，我们固

定 µ = 3m并且调节 T，结果如图5.15(a)所示。当 T 从 5s变化到 15s时，观察到的数据

变得更稀疏（参见表5.5），所有方法的召回率下降，但 IMS-CAC下降最慢。此外，当涉及

较大的 T 时，IMS-CAC和 IMS-CA间的性能差距往往会扩大，这表明当定位数据变得稀

疏时，我们的数据补全方法可有效地对缺失语义进行恢复。当 T = 15s时，IMS-CAC仍然

有 83%的 0.7-可接受召回率。同样，IMS-A的召回率最差，并在 T 增大时迅速下降。在

所有测试中，采用了清洗层的 IMS-CA和 IMS-CAC明显优于其它两种。

我们还将 T 固定为 5s，并测试不同 µ值的影响。根据图5.15(b)可知，当 µ增大时，IMS-

CAC和 IMS-CA都保持稳定，而不使用数据清洗的方法则迅速地下降，这表明我们的原

始数据清洗对减少定位误差的负面影响十分有效。此外，由于数据补全的作用，IMS-CAC

在所有测试中都优于 IMS-CA。

在不同 T 和 µ设定下的结果表明，即使在原始数据质量相对较低——具有很大不确

定的情况下，我们的整体模型 IMS-CAC也可挖掘出有效的移动语义。

移动语义应答查询的有效性对于每个 IPT实例，我们使用5.6.1.5小节介绍的六种方

113


法来回答查询 TkPRQ 和 TkFRPQ。在实验中，用于表示区域访问的参数 Ts 在 RAW 和

RAW-C中分别调参为 2分钟和 3.5分钟。我们共选择 212个（总数 50%）的语义区域来

形成查询集合 Q，k被设定为 60，T 被设定为 120分钟。不同方法的精确率参见图5.16。

根据图5.16中 T5µ5、T5µ4和 T5µ3的结果可知，所有方法在两项查询中的精确率都

随 µ值增大而下降，而所有使用数据清理的方法在测试中都明显优于其它方法。当 µ增加

到 5m时，我们提出的 IMS-CAC对 TkPRQ和 TkFRPQ的精确率分别为 91.06%和 88.84%，

表明了当原始数据包含很多错误时，其查询应答的有效性仍然很高。

根据图5.16中 T5µ3、T10µ3和 T15µ3的结果可知，随着 T 的增大各方法应答查询的

有效性都会降低。使用数据补全的 IMS-CAC仅略微下降，而 RAW-C和 IMS-CA则迅速

恶化。这些结果表明，采用数据补全对提升移动语义的质量十分有效，尤其是当原始数据

在时间上采样稀疏时。IMS-A 对这两种查询的应答表现都很差——有时甚至比直接使用

原始数据还要糟糕。因此，使用完整三层模型来挖掘移动语义是十分必要的。

5 1 0 1 50 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 9

3 4 50 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 9( a )

0.7-ac

cepta

ble Re

call

T ( s e c . )

I M S - A I M S - C A I M S - A C I M S - C A C( b )

0.7-ac

cepta

ble Re

call

� ( m )

图 5.15 移动语义构建的有效性 [合成数据集]Figure 5.15 Construction Effectiveness

T 5 µ5 T 5 µ4 T 5 µ3 T 1 0 µ3 T 1 5 µ30 . 00 . 20 . 40 . 60 . 81 . 0

R A W R A W - C I M S - A I M S - C A I M S - A C I M S - C A C( a ) T k P R Q

Precis

ion

S y n t h e t i c I P T I n s t a n c e sT 5 µ5 T 5 µ4 T 5 µ3 T 1 0 µ3 T 1 5 µ30 . 0

0 . 20 . 40 . 60 . 81 . 0 ( b ) T k F R P Q

Precis

ion S y n t h e t i c I P T I n s t a n c e s

图 5.16 查询应答的有效性 [合成数据集]Figure 5.16 Query Answering Effectiveness

5.7 本章小结

本章提出了从原始的、具有时空和语义不确定性的室内定位序列中挖掘用户移动语

义的问题。我们设计了一个三层移动语义挖掘模型及对应的数据处理方法来解决上述问

题。在清洗层，我们基于室内移动性约束设计了数据清洗方法来消减原始定位序列中的数

据错误。在标注层，我们设计了基于时空密度的序列分割方法将清洗后的序列划分为多个

片段，同时设计了语义匹配方法将每一片段进行标注以抽取对应的移动语义。在补全层，

我们设计了基于概率推断的方法，利用从历史数据中获得的移动知识来恢复序列中缺失

的移动语义。最后，我们使用真实数据集和合成数据集对提出的模型和方法进行了全面的

实验评估。结果表明，我们设计的模型可高效地对原始定位数据进行处理，得到与真实情

况相符的准确移动语义；挖掘的移动语义也能有效、高效地对典型的数据查询进行应答。

114

浙江大学博士学位论文第六章结论和展望

第六章结论和展望

6.1 论文总结

6.1.1 论文主要研究内容

移动智能终端和室内传感基础设施的快速普及和发展，为室内移动对象的定位追踪

提供了极大便利，近年来室内移动数据的规模正以前所未有的速度进行增长。研究报告声

称，2018年将有超过 8亿台智能设备通过室内定位服务频繁地产生移动位置数据。但需

注意的是，当前大部分室内定位服务都构建在已有基础设施之上，其位置采样的精度和频

度受到了极大限制，加之复杂的室内环境因素影响，采集的室内移动数据具有天然的不确

定性。因此，丰富的室内移动数据对人类而言既是一笔财富，也是一大挑战。如果想利用

如此大量的室内移动数据为人类生活提供便捷的服务，如移动行为分析、资源规划优化

等，就必须对室内移动数据固有的不确定性进行分析和处理。本文在构建室内位置智能服

务的背景下，从分析人员的实际应用需求入手，研究了重要的不确定室内移动数据分析挖

掘课题。针对室内空间结构、室内定位机制和室内移动对象的一般性特点，本文创新性地

提出了一系列技术和解决方案，对室内移动数据中常见的时空不确定性和语义不确定性

进行了有效的建模分析，对具有实际应用价值的分析挖掘问题进行了有效和高效的求解。

本文的主要研究内容总结如下：

• 围绕本文研究内容相关的已有工作，我们进行了充分的调研和总结。首先，我们详

细介绍了当前室内移动数据领域的研究基础，包括室内定位、室内移动数据管理和

室内移动数据分析挖掘技术。特别地，我们对室内空间建模及移动对象索引、室内

移动数据清洗和室内移动数据查询等方向最新的进展进行了分项阐述，并从移动模

式挖掘、热点资源发现和移动预测等方面回顾了近年来室内移动数据分析挖掘中具

有代表性和影响力的工作。从中发现，室内移动数据的不确定性研究仍是一项亟需

解决的重要课题。此外，我们还对室外移动轨迹的相关课题进行了综述，介绍了典

型的不确定轨迹建模及分析方法。同时，对与本文问题息息相关的密度分析、流量

分析和语义轨迹构建的相关工作进行了阐述，分析了现有技术的特点与不足，及面

向室内移动数据时解决问题的挑战及困难。

• 我们提出了新型的面向时空不确定性的室内区域密度分析计算模型及相应的密集区

115

第六章结论和展望浙江大学博士学位论文

域挖掘方法。其中，用于分析的快照数据仅包含每个移动对象的最新位置报告。为

适应由离散的、老旧的室内定位结果引起的对象位置不确定性，我们首先对移动对

象在分析时刻的不确定范围进行了有效建模，并提出了合理的室内密度定义。随后，

我们对密集区域挖掘计算中涉及的时空不确定性进行了系统分析，推导得到了室内

区域密度的严格上下界。利用有效的密度上下界，我们采用了高效的剪枝策略来避

免许多复杂的数据计算，从而快速完成对室内密集区域的挖掘过程。与现有方法进

行实验对比可以发现，尽管分析使用的快照数据存有时空不确定性，我们提出的密

集区域挖掘算法仍是高效、可扩展及有效的。

• 我们提出了新型的面向时空不确定性的室内语义位置流量分析计算模型及相应的热

点语义位置挖掘方法。其中，用于分析的历史数据将每个移动对象在过去某时刻的

位置描述为一组概率样本。为获取可靠的室内流量，我们充分考虑了室内定位机制

和室内拓扑下的移动约束，提出了合理的室内流量定义及计算模型。我们设计了加

速相关数据访问的数据结构、减少中间处理数据的数据规约方法，及总体的流量计

算算法来提升室内流量分析的效率。通过采用高效的空间索引和最佳优先搜索策略，

我们对无关的对象数据和候选语义位置进行快速准确的剪枝，从而高效地完成对热

点语义位置的挖掘过程。与现有方法进行实验对比可以发现，尽管分析使用的历史

移动数据存有时空不确定性，我们提出的热点语义位置挖掘算法仍然具有很好的计

算精度和很高的计算效率。

• 我们提出了新型的面向时空和语义不确定性的室内用户移动语义挖掘方法。其中，

用于分析的原始定位序列具有采样稀疏、观测不准确及缺乏语义信息等常见问题。

我们提出了三层结构的移动语义挖掘模型及对应的数据处理方法来解决上述数据问

题并抽取有效的语义元组。我们在模型清洗层设计了基于室内移动性约束的预处理

方法，来消减原始定位序列中的数据错误。我们在标注层设计了基于时空密度的序

列分割方法将清洗后的序列划分为多个片段，也设计了语义匹配方法将每一片段抽

取成为合理的语义元组。我们在补全层设计了基于概率推断的数据补全方法，以利

用历史数据中蕴含的先验知识来恢复标注序列中缺失的移动语义。通过对模型中不

同技术的组合对比可以发现，尽管分析使用的原始移动数据存有时空及语义不确定

性，我们提出的挖掘模型仍可高效地获得与真实情况相符的准确语义元组，抽取的

移动语义也可有效和高效地支持典型的室内数据查询需求。

总体而言，本文研究的三项主体内容，在建模分析方法上都充分考虑了室内空间结

构、室内定位机制和室内移动约束的一般性特点，具有较强的通用性。如表6.1所示，其区

116


别又在于：数据设定上既有在线的快照数据也有特定时间范围内的历史数据；技术上分别

主要解决了数据中因采样稀疏引和观测不充分引起的时空不确定性和因脱离上下文引起

的语义不确定性，其对应方法可互相进行扩展；问题求解上分别考虑了自定义区域密度分

析、语义位置流量分析和用户移动语义抽取的不同目标。

表 6.1 本文研究问题的不同点

Table 6.1 The Difference between the Three Research Problems in the Thesis

研究问题移动数据设定不确定性分析挖掘目标

在线快照数据时空不确定性室内密集区域

历史范围数据时空不确定性室内热点语义位置

历史范围数据时空、语义不确定性用户移动语义元组

6.1.2 论文主要创新点

本文的创新点总结如下：

• 创新地提出了面向时空不确定数据的室内密度分析挖掘方法，该方法充分考虑了因

定位采样稀疏导致的移动数据老旧问题，结合室内拓扑约束下的对象移动特点，对

自定义区域密度的上下界进行了快速有效的推导，设计并实现了在线室内密集区域

的挖掘算法，实时高效地对室内空间的密度情况进行分析。具体创新点包括：

– 建立了基于室内不确定移动区域和距离衰减效应的对象出现度模型，能够对时

空不确定数据下的室内区域流量进行合理计算。

– 提出了室内缓冲区域和室内核心区域的概念，在此基础上通过严格的推导证明

对任意形状室内区域的密度上下界进行快速求解。

– 设计了使用密度上下界和室内拓扑关系的两步搜索算法，对快照时刻的 top-k

密集区域进行准确高效的挖掘。

• 创新地提出了面向时空不确定数据的室内流量分析挖掘方法，该方法充分考虑了因

定位鲁棒性需要产生的移动数据概率化采样问题，结合室内拓扑和室内定位机制的

特点，对移动对象的不确定轨迹进行了建模并计算得出特定语义位置在一定时间范

围内的流量值，设计并实现了面向历史数据的室内热点语义位置的挖掘算法，快速

高效地对分析各室内语义位置在给定时间段内的流量情况。具体创新点包括：

– 建立了面向概率位置样本序列的对象出现度模型，能够对时空不确定数据下的

室内流量进行准确计算。

– 根据室内拓扑约束和室内定位机制设计了室内空间位置图和室内位置矩阵，以

117

第六章结论和展望浙江大学博士学位论文

快速计算得到不确定轨迹通过候选语义位置的概率值。

– 利用室内空间位置图记录的拓扑关系，设计了有效的数据规约方法，通过内合

并、间合并和基于可能语义位置的无效数据筛选，显著地降低用于计算室内流

量的对象及其不确定轨迹的规模。

– 设计了基于中间结果共享、空间索引剪枝和流量值上估的最佳优先搜索算法，

对历史时间段内的 top-k热点语义位置进行准确高效的挖掘。

• 创新地提出了面向时空和语义不确定数据的室内移动语义挖掘方法，设计和实现了

对应的三层挖掘模型来分项解决原始定位序列中的数据质量问题：清洗层用于消减

原始数据中定位错误；标注层用于对缺乏上下文关联的原始序列进行语义抽取；补

全层用于解决序列中因采样稀疏导致的移动语义缺失。具体创新点包括：

– 建立针对室内环境特点的通用移动事件模型，并首次给出了室内移动语义的一

般性定义。

– 提出了基于室内移动性约束的原始数据清洗方法，通过识别典型的室内定位错

误并根据移动约束进行两段式修正，来减少原始定位序列中的数据错误。

– 提出了基于分割匹配的移动语义标注方法，首先根据序列中位置报告的时空密

度将序列进行分割，随后利用学习得到的移动事件识别函数和构建的语义区域

图对移动语义进行匹配和构建。

– 提出了基于概率推断的数据补全方法，利用历史数据构建出两个室内目的地间

的候选路径集合及区域间的转移概率，并通过最大后验概率估计找出当前观测

序列的最可能路径及其中每一区域的时间标注，完成缺失移动语义的恢复。

6.2 未来展望

室内移动数据的分析和挖掘是当前学界和业界共同的热点研究问题。本文针对室内

移动数据中普遍存在的时空和语义不确定性，面向典型的室内移动场和移动行为分析挖

掘问题，提出了有效的解决方案，并取得了一定的研究成果。结合目前已完成的研究内容

及业界最新的发展方向，本文的研究工作仍具有很大的挖掘潜力和研究价值。今后的研究

将重点关注以下几个方面：

• 扩展和加强本文第三章的室内密度分析挖掘方法，包括：(1)利用已提出的密度计算

分析技术如室内缓冲/核心区域和距离衰减不确定区域模型，对连续室内密度查询和

室内移动对象聚类等相关问题进行探究；(2)通过离线学习的方法从历史数据中构建

对象的不确定运动模型，以适应更普适情况下室内区域密度的计算分析。

118


• 进一步扩展和完善本文第四章的室内流量分析挖掘方法，包括：(1) 深入考虑室内

环境和移动对象运动的一般性特点，对室内对象的行为进行进阶的建模，以加强定

义4.1中提出的室内流量的计算衡量方法；(2)考虑流量分析中定位位置的密集程度

对流量计算准确度的影响，找到流量分析和定位系统部署的最优平衡点；(3)考虑连

续版本的室内热点语义位置挖掘方法，包括对室内空间位置图和位置矩阵的动态维

护，及挖掘算法中搜索策略的改良优化等。

• 改进和丰富本文第五章的室内移动语义挖掘方法，扩展其具体应用的范畴，包括：(1)

在缺失语义元组的推断过程中，加入对历史数据中时间标注的建模过程，以更有效

地预测缺失语义的标注信息；(2)对常见的符号定位数据，如 RFID/蓝牙跟踪记录进

行扩展，以形成通用的移动语义抽取和计算分析平台；(3)利用具有更高置信度的数

据源，如用户事务日志、签到数据或移动社交媒体数据，来修正和增强现有移动层

面的语义序列，用于支持更大范围、更高精度的室内用户行为分析。

119

浙江大学博士学位论文参考文献

参考文献

[1] N. Klepeis, W. Nelson, W. Ott, J. Robinson, A. Tsang, P. Switzer, J. Behar, S. Hern, and

W. Engelmann. The National Human Activity Pattern Survey (NHAPS): a resource for as-

sessing exposure to environmental pollutants. Journal of Exposure Science, 2001, 11(3): 231.

[2] P. L. Jenkins, T. J. Phillips, E. J. Mulberg, and S. P. Hui. Activity patterns of Californians:

use of and proximity to indoor pollutant sources Atmospheric Environment. Part A. General

Topics, 1992: 2141–2148.

[3] W. Ott. Human activity patterns: a review of the literature for estimating time spent indoors,

outdoors, and in transit. US Environmental Protection Agency, 1988.

[4] Wikipedia. List of countries by smartphone penetration. https://en.wikipedia.org/wiki/List_

of_countries_by_smartphone_penetration#2016_rankings.

[5] eMarketer. Wearable Device Penetration in Select Countries. https://goo.gl/dFb4YU.

[6] In Location Alliance. http://inlocationalliance.org/.

[7] H. Lu and M A. Cheema. Indoor data management. In IEEE ICDE, 2016: 1414–1417.

[8] Y. Liu, Y. Zhao, L. Chen, J. Pei, and J. Han. Mining frequent trajectory patterns for activity

monitoring using radio frequency tag arrays. IEEE Transactions on Parallel and Distributed

Systems, 2012, 23(11): 2138–2149.

[9] C-H. Yun and M-S. Chen. Mining mobile sequential patterns in a mobile commerce envi-

ronment. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and

Reviews), 2007, 37(2): 278–295.

[10] S-Y. Teng, W-S. Ku, and K-T. Chuang. Toward Mining Stop-by Behaviors in Indoor Space.

ACM Transactions on Spatial Algorithms and Systems, 2017, 3(2), 38 pages.

[11] L. Radaelli, D. Sabonis, H. Lu, and C. S. Jensen. Identifying typical movements among

indoor objects–concepts and empirical study. In IEEE MDM, 2013: 197–206.

[12] M. Delafontaine, M. Versichele, T. Neutens, and N. Van de Weghe. Analysing spatiotemporal

sequences in Bluetooth tracking data. Applied Geography, 2012, 34: 659–668.

[13] Z. Chen, Y. Chen, S. Wang, and Z. Zhao. A supervised learning based semantic location

extraction method using mobile phone data. In IEEE CSAE, 2012: 548–551.

121

https://en.wikipedia.org/wiki/List_of_countries_by_smartphone_penetration#2016_rankings

https://en.wikipedia.org/wiki/List_of_countries_by_smartphone_penetration#2016_rankings

https://goo.gl/dFb4YU

http://inlocationalliance.org/

参考文献浙江大学博士学位论文

[14] T. S. Prentow, H. Blunck, K. Grønbæk, and M. B. Kjærgaard. Estimating common pedestrian

routes through indoor path networks using position traces. In IEEE MDM, 2014: 43-48.

[15] P. Jin, J. Du, C. Huang, S. Wan, and L. Yue. Detecting hotspots from trajectory data in indoor

spaces. In DASFAA, 2015: 209–225.

[16] S H. Hussein, H. Lu, and T. B. Pedersen. Reasoning about RFID-tracked moving objects in

symbolic indoor spaces. In ACM SSDBM, 2013: 9.

[17] T. Ahmed, T. B. Pedersen, and H. Lu. Finding dense locations in indoor tracking data. In

IEEE MDM, 2014: 189–194.

[18] H. Lu, C. Guo, B. Yang, and C. S. Jensen. Finding frequently visited indoor pois using

symbolic indoor tracking data. In EDBT, 2016: 449–460.

[19] P S. Prasad and P. Agrawal. Movement prediction in wireless networks using mobility traces.

In IEEE CCNC, 2010: 1–5.

[20] Y. Chon, H. Shin, E. Talipov, and H. Cha. Evaluating mobility models for temporal prediction

with high-granularity mobility data. In IEEE PerCom, 2012: 206–212.

[21] C. Koehler, N. Banovic, I. Oakley, J. Mankoff, and A K. Dey. Indoor-ALPS: an adaptive

indoor location prediction system. In ACM UbiComp, 2014: 171–181.

[22] M. Dash, K K. Koo, J B. Gomes, S P. Krishnaswamy, D. Rugeles, and A. Shi-Nash. Next

place prediction by understanding mobility patterns. In IEEE PerCom Workshops, 2015: 469–

474.

[23] A. Yaeli, P. Bak, G. Feigenblat, et al. Understanding customer behavior using indoor location

analysis and visualization. IBM Journal of Research and Development, 2014, 58(5/6).

[24] C. F. Ng. Satisfying shoppers’ psychological needs: From public market to cyber-mall.

Journal of Environmental Psychology, 2013, 23(4): 439–455.

[25] B. Fang, S. Liao, K. Xu, H. Cheng, C. Zhu, and H. Chen. A novel mobile recommender

system for indoor shopping. Expert Systems with Applications, 2012, 39(15): 11992–12000.

[26] Nextome. Visitor Engagement - Nextome. https://www.nextome.net/visitor-engagement/.

[27] Inpixon. Security Monitoring. https://inpixon.com/solutions/ipa/.

[28] Infsoft Solutions. Emergency Call in Nursing Homes. https://www.infsoft.com/examples-

of-use/articleid/228/an-emergency-call-system-for-elderly-people-in-nursing-homes.

[29] Sewio. RTLS for warehouses and logistics. https://www.sewio.net/rtls-in-logistics/.

122


[30] I. Hwang and Y. J. Jang. Process mining to discover shoppers’ pathways at a fashion retail

store using a WiFi-base indoor positioning system. IEEE Transactions on Automation Science

and Engineering, 2017, 14(4): 1786–1792.

[31] Indoo.rs. Indoor Anayltics - Optimize the Store Layout. https://indoo.rs/solution/analytics/.

[32] Carto. Healthcare & Pharma. https://carto.com/solutions/healthcare-and-pharma/.

[33] S. Bhattacharya, S. Sridevi, and R. Pitchiah. Indoor air quality monitoring using wireless

sensor network. In IEEE ICST, 2012: 422–427.

[34] J. Hightower and G. Borriello. Location systems for ubiquitous computing. IEEE Computer,

2001, 34(8): 57–66.

[35] Y. Gu, A. Lo, and I. Niemegeers. A survey of indoor positioning systems for wireless personal

networks. IEEE Communications Surveys & Tutorials, 2009, 11(1): 13–32.

[36] H. Liu, H. Darabi, P. Banerjee, and J. Liu. Survey of wireless indoor positioning techniques

and systems. IEEE Transactions on Systems, Man, and Cybernetics, 2006, 37(6).

[37] R. Mautz and S. Sebastian. Survey of optical indoor positioning systems. In IEEE IPIN,

2011: 1–7.

[38] L. Mainetti, L. Patrono, and I. Sergi. A survey on indoor positioning systems. In IEEE

SoftCOM, 2014: 111–120.

[39] R. Want, A. Hopper, V. Falcao, and J. Gibbons. The active badge location system. ACM

Transactions on Information Systems, 1992, 10(1): 91–102.

[40] N B. Priyantha, A. Chakraborty, and H. Balakrishnan. The cricket location-support system.

In ACM MobiCom, 2000: 32–43.

[41] R. Zetik, J. Sachs, and R. Thoma. UWB localization-active and passive approach [ultra

wideband radar]. In IEEE IMTC, 2004: 1005–1009.

[42] D. Niculescu and B. Nath. VOR base stations for indoor 802.11 positioning. In ACM Mobi-

Com, 2004: 58–69.

[43] Y. Gwon and R. Jain. Error Characteristics and Calibration-free Techniques for Wireless

LAN-based Location Estimation. In ACM MobiWac, 2004: 2–9.

[44] H. Lim, L-C.Kung, J C. Hou, and H. Luo. Zero-configuration indoor localization over IEEE

802.11 wireless infrastructure. Wireless Networks, 2010, 16(2): 405–420.

[45] K. Chintalapudi, A. Padmanabha Iyer, and V N. Padmanabhan. Indoor localization without

the pain. In ACM MobiCom, 2010: 173–184.

123


[46] V. Honkavirta, T. Perala, S. Ali-Loytty, and R. Piché. A comparative survey of WLAN

location fingerprinting methods. In IEEE WPNC, 2009: 243–251.

[47] G. Minaev, A. Visa, and R. Piché. Comprehensive survey of similarity measures for ranked

based location fingerprinting algorithm. In IEEE IPIN, 2017: 1–4.

[48] P. Bahl and V N. Padmanabhan. RADAR: An in-building RF-based user location and tracking

system. In IEEE INFOCOM, 2000: 775–784.

[49] M. Youssef and A. Agrawala. The Horus WLAN location determination system. In ACM

MobiSys, 2005: 205–218.

[50] Z. Farid, R. Nordin, and M. Ismail. Recent advances in wireless indoor localization tech-

niques and system. Journal of Computer Networks and Communications, 2013: 1–13.

[51] E. Elnahrawy, X. Li, and R P. Martin. The limits of localization using signal strength: A

comparative study. In IEEE SECON, 2004: 406–414.

[52] A. Khalajmehrabadi, N. Gatsis, and D. Akopian. Modern WLAN fingerprinting indoor po-

sitioning methods and deployment challenges. IEEE Communications Surveys & Tutorials,

2017, 19(3): 1974–2002.

[53] C. Wu, Z. Yang, Y. Liu, and W. Xi. WILL: Wireless indoor localization without site survey.

IEEE Transactions on Parallel and Distributed Systems, 2013, 24(4): 839–848.

[54] Z. Yang, C. Wu, and Y. Liu. Locating in fingerprint space: wireless indoor localization with

little human intervention. In ACM MobiSys, 2012: 269–280.

[55] S-H. Fang and T. Lin. Principal component localization in indoor WLAN environments.

IEEE Transactions on Mobile Computing, 2012, 11(1): 100–110.

[56] J. Xiao, K. Wu, Y. Yi, and L M. Ni. FIFS: Fine-grained indoor fingerprinting system. In

IEEE ICCCN, 2012: 1–7.

[57] X. Wang, L.Gao, S. Mao, and S. Pandey. CSI-based fingerprinting for indoor localization: A

deep learning approach. IEEE Transactions on Vehicular Technology, 2017, 66(1): 763–776.

[58] G. Deak, K. Curran, and J. Condell. A survey of active and passive indoor localisation

systems. Computer Communications, 2012, 35(16): 1939–1954.

[59] J. Song, C T. Haas, and C H. Caldas. A proximity-based method for locating RFID tagged

objects. Advanced Engineering Informatics, 2007, 21(4): 367–376.

[60] M. B. Kjærgaard, M Wirz, D. Roggen, and G. Tröster. Mobile sensing of pedestrian flocks

in indoor environments using wifi signals. In IEEE PerCom, 2012: 95–10.

124


[61] R. Hartley and A. Zisserman. Multiple view geometry in computer vision. Cambridge

University Press, 2003.

[62] M E. Fathy, A S. Hussein, and M F. Tolba. Fundamental matrix estimation: A study of error

criteria. Pattern Recognition Letters, 2011: 383–391.

[63] X. Li and J. Wang. Image matching techniques for vision-based indoor navigation systems:

performance analysis for 3D map based approach. In IEEE IPIN, 2012: 1–8.

[64] T K. Kohoutek, R. Mautz and A. Donaubauer. Real-time indoor positioning using range

imaging sensors. Real-Time Image and Video Processing, 2010.

[65] A J. Ruiz-Ruiz, Antonio J, P E. Lopez-de-Teruel, and O. Canovas. A multisensor LBS using

SIFT-based 3D models. In IEEE IPIN, 2012: 1–8.

[66] A. Mulloni, D. Wagner, I. Barakonyi and D. Schmalstieg. Indoor positioning and navigation

with camera phones. IEEE Pervasive Computing, 2009, 8(2).

[67] S. Tilch and R. Mautz. Development of a new laser-based, optical indoor positioning sys-

tem. International Archives of the Photogrammetry, Remote Sensing and Spatial Information

Sciences Commission, 2010, 1501: 575–580.

[68] G. Klein and D. Murray. Parallel tracking and mapping for small AR workspaces. In IEEE

ISMAR, 2007: 225–234.

[69] R A. Newcombe, S J. Lovegrove, and A J. Davison. DTAM: Dense tracking and mapping in

real-time. In IEEE ICCV, 2011: 2320–2327.

[70] A. Baniukevic, C. S. Jensen, and H. Lu. Hybrid indoor positioning with wi-fi and bluetooth:

Architecture and performance. In IEEE MDM, 2013: 207–216.

[71] J. Liu, R. Chen, L. Pei, R. Guinness, and H. Kuusniemi. A hybrid smartphone indoor posi-

tioning solution for mobile LBS. Sensors, 2012, 12(12): 17208–17233.

[72] H. Li, P. Peng, H. Lu, L. Shou, G. Chen, and K. Chen. E2C2: Efficient and Effective Camera

Calibration in Indoor Environments. In ACM UbiComp, 2015: 9–12.

[73] P. Levchev, M N. Michael, C. Yu, J. Menke, and A. Zakhor. Simultaneous fingerprinting and

mapping for multimodal image and WiFi indoor positioning. In IEEE IPIN, 2014: 442–450.

[74] J-S. Kim, S-J. Yoo, and K-J. Li. Integrating IndoorGML and CityGML for indoor space. In

W2GIS, 2014: 184–196.

[75] J-S. Kim, H-Y. Kang, T-H. Lee, and K-J. Li. Topology of the prism model for 3D indoor

spatial objects. In IEEE MDM, 2009: 698–703.

125


[76] J. Lee. A spatial access-oriented implementation of a 3-D GIS topological data model for

urban entities. GeoInformatica, 2004, 8(3): 237–264.

[77] E. Whiting, J. Battat, and S. Teller. Topology of Urban Environments. In CAAD Futures,

2007: 114–128.

[78] D. Li and D L. Lee. A lattice-based semantic location model for indoor navigation. In IEEE

MDM, 2008: 17–24.

[79] C. S. Jensen, H. Lu, and B. Yang. Graph model based indoor tracking. In IEEE MDM, 2009:

122–131.

[80] H. Lu, X. Cao, and C. S. Jensen. A foundation for efficient indoor distance-aware query

processing. In IEEE ICDE, 2012: 438–449.

[81] C. S. Jensen, H. Lu, and B. Yang. Indexing the trajectories of moving objects in symbolic

indoor space. In SSTD, 2009: 208–227.

[82] B. Yang, H. Lu, and C. S. Jensen. Scalable continuous range monitoring of moving objects

in symbolic indoor space. In ACM CIKM, 2009: 671–680.

[83] B. Yang, H. Lu, and C. S. Jensen. Probabilistic threshold k nearest neighbor queries over

moving objects in symbolic indoor space. In EDBT, 2010: 335–346.

[84] W. Choi, B. Moon, and S. Lee. Adaptive cell-based index for moving objects. Data &

Knowledge Engineering, 2004, 48(1): 75–101.

[85] X. Xie, H. Lu, and T. B. Pedersen. Efficient distance-aware query evaluation on indoor

moving objects. In IEEE ICDE, 2013: 434–445.

[86] H. Chen, W.-S. Ku, H. Wang, and M.-T. Sun. Leveraging spatio-temporal redundancy for

RFID data cleaning. In ACM SIGMOD, 2010: 51–62.

[87] B. Fazzinga, S. Flesca, F. Furfaro, and F. Parisi. Cleaning Trajectory Data of RFID-monitored

Objects through Conditioning under Integrity Constraints. In EDBT, 2014: 379–390.

[88] B. Fazzinga, S. Flesca, F. Furfaro, and F. Parisi. Offline Cleaning of RFID Trajectory Data.

In ACM SSDBM, 2014, 5: 1–12.

[89] A. I. Baba, H. Lu, X. Xie, and T. B. Pedersen. Spatiotemporal data cleansing for indoor RFID

tracking data. In IEEE MDM, 2013: 187–196.

[90] A. I. Baba, H. Lu, T. B. Pedersen, and X. Xie. Handling false negatives in indoor RFID data.

In IEEE MDM, 2014: 117–126.

[91] A. I. Baba, M. Jaeger, H. Lu, T. B. Pedersen, W.-S. Ku, and X. Xie. Learning-based cleaning

for indoor rfid data. In ACM SIGMOD, 2016: 925–936.

126


[92] V. Fox, J. Hightower, L. Liao, D. Schulz, and G. Borriello. Bayesian filtering for location

estimation. IEEE Pervasive Computing, 2003, 2(3): 24–33.

[93] J. Yim, C. Park, J. Joo, and S. Jeong. Extended Kalman Filter for wireless LAN based indoor

positioning. Decision Support Systems, 2008, 45(4): 960–971.

[94] T S. Prentow, A. Thom, H. Blunck, and J. Vahrenhold. Making sense of trajectory data in

indoor spaces. In IEEE MDM, 2015: 116-121.

[95] L. Kunze, M. Beetz, M. Saito, H. Azuma, K. Okada, and M. Inaba. Searching objects in

large-scale indoor environments: A decision-theoretic approach. In IEEE ICRA, 2012: 4385–

4390.

[96] H. Lau, S. Huang, and G. Dissanayake. Probabilistic search for a moving target in an indoor

environment. In IEEE IROS, 2006: 3393–3398.

[97] K. Lee, J. Lee, and M-P. Kwan. Location-based service using ontology-based semantic

queries: A study with a focus on indoor activities in a university context. Computers, Envi-

ronment and Urban Systems, 2017, 62: 41–52.

[98] W. Yuan and M. Schneider. iNav: An indoor navigation model supporting length-dependent

optimal routing. In AGILE GIS, 2010: 299–313.

[99] H A. Karimi and M. Ghafourian. Indoor routing for individuals with special needs and

preferences Transactions in GIS, 2010, 14(3): 299–329.

[100] A A. Khan, Z. Yao, and T H. Kolbe. Context aware indoor route planning using semantic

3D building models with cloud computing. 3D Geoinformation Science, 2015: 175–192.

[101] S. Alamri, D. Taniar, M. Safar, and H. Al-Khalidi. Spatiotemporal indexing for moving

objects in an indoor cellular space. Neurocomputing, 2013, 122: 70–78.

[102] W. Yuan and M. Schneider. Supporting continuous range queries in indoor space. In IEEE

MDM, 2010: 209–214.

[103] X. Xie, H. Lu, and T. B. Pedersen. Distance-aware join for indoor moving objects. IEEE

Transactions on Knowledge and Data Engineering, 2015, 27(2): 428–442.

[104] H. Lu, B. Yang, and C. S. Jensen. Spatio-temporal joins on symbolic indoor tracking data.

In IEEE ICDE, 2011: 816–827.

[105] P. Jin, T. Cui, Q. Wang, and C. S. Jensen. Effective similarity search on indoor moving-

object trajectories. In DASFAA, 2016: 181–197.

[106] H. Liu and M. Schneider. Capturing the uncertainty of moving-object representations. In

SSTD, 1999: 111–131.

127


[107] H. Liu and M. Schneider. Querying moving objects with uncertainty in spatio-temporal

databases. In DASFAA, 2011: 357–371.

[108] E. Frentzos, K. Gratsias, and Y. Theodoridis. On the effect of location uncertainty in spatial

querying. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(3): 366–383.

[109] M. Zhang, S. Chen, C. S. Jensen, B. C. Ooi, and Z. Zhang. Effectively indexing uncertain

moving objects for predictive queries. PVLDB, 2009, 2(1): 1198–1209.

[110] K. Zheng, G. Trajcevski, X. Zhou, and P. Scheuermann. Finding frequently visited indoor

pois using symbolic indoor tracking data. In EDBT, 2011: 283–294.

[111] H. Jeung, H. Lu, S. Sathe, and M L. Yiu. Managing evolving uncertainty in trajectory

databases. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(7): 1692–1705.

[112] Y. Tao, X. Xiao, and R. Cheng. Range search on multidimensional uncertain data. ACM

Transactions on Database Systems, 2007, 32(3): 15.

[113] R. Cheng, Y. Xia, S. Prabhakar, R. Shah, and J S. Vitter. Efficient indexing methods for

probabilistic threshold queries over uncertain data. PVLDB, 2004, 30: 876–887.

[114] R. Cheng, D V. Kalashnikov, and S. Prabhakar. Querying imprecise data in moving object

environments. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(9): 1112–

1127.

[115] L.-Y. Wei, Y. Zheng, and W.-C. Peng. Constructing popular routes from uncertain trajec-

tories. In ACM SIGKDD, 2012: 195–203.

[116] K. Zheng, Y. Zheng, X. Xie, and X. Zhou. Reducing uncertainty of low-sampling-rate

trajectories. In IEEE ICDE, 2012: 1144–1155.

[117] H. Su, K. Zheng, H. Wang, J. Huang, and X. Zhou. Calibrating trajectory data for similarity-

based analysis. In ACM SIGMOD, 2013: 833–844.

[118] A. Y. Xue, J. Qi, X. Xie, R. Zhang, J. Huang, and Y. Li. Solving the data sparsity problem

in destination prediction. The VLDB Journal, 2015, 24(2): 219–243.

[119] Y. Tao, G. Kollios, J. Considine, F. Li, and D. Papadias. Spatio-temporal aggregation using

sketches. In IEEE ICDE, 2004: 214–225.

[120] Y. Li, J. Han, and J. Yang. Clustering moving objects. In ACM SIGKDD, 2004: 617–622.

[121] M. L. Yiu and N. Mamoulis. Clustering objects on a spatial network. In ACM SIGMOD,

2004: 443–454.

[122] M. Hadjieleftheriou, G. Kollios, D. Gunopulos, and V J. Tsotras. On-line discovery of

dense areas in spatio-temporal databases. In SSTD, 2003: 306–324.

128


[123] C. S. Jensen, D. Lin, B. C. Ooi, and R. Zhang. Effective density queries on continuously-

moving objects. In IEEE ICDE, 2006: 71.

[124] J. Ni and C V. Ravishankar. Pointwise-dense region queries in spatio-temporal databases.

In IEEE ICDE, 2007: 1066–1075.

[125] X. Hao, X. Meng, and J. Xu. Continuous density queries for moving objects. In ACM

MobiDE, 2008: 1–7.

[126] X. Huang and H. Lu. Snapshot density queries on location sensors. In ACM MobiDE, 2007:

75–78.

[127] X. Li, J, Han, J-G. Lee, and H. Gonzalez. Traffic density-based discovery of hot routes in

road networks. In SSTD, 2007: 441–459.

[128] C. Lai, L. Wang, J. Chen, X. Meng, and K. Zeitouni. Effective density queries for moving

objects in road networks. In WAIM, 2007: 200–211.

[129] X. Cao, G. Cong, and C. S. Jensen. Mining significant semantic locations from GPS data.

PVLDB, 2010, 3(1): 1009–1020.

[130] C. Parent, S. Spaccapietra, C. Renso, et al. Semantic trajectories modeling and analysis.

ACM Computing Surveys, 2013, 45(4).

[131] L. O. Alvares, V. Bogorny, B. Kuijpers, J. de Macedo, B. Moelans, and A. Vaisman. A model

for enriching trajectories with semantic geographical information. Advances in geographic

information systems, 2007, 22.

[132] G. Marketos, E. Frentzos, I. Ntoutsi, N. Pelekis, A. Raffaetà, and Y. Theodoridis. Building

real-world trajectory warehouses. In ACM MobiDE, 2008: 8–15.

[133] Z. Yan, D. Chakraborty, C. Parent, S. Spaccapietra, and K. Aberer. Semantic trajectories:

Mobility data computation and annotation. ACM Transactions on Intelligent Systems and

Technology, 2013, 4(3): 49:1–49:38.

[134] H. Su, K. Zheng, K. Zeng, J. Huang, S. Sadiq, N. J. Yuan, and X. Zhou. Making sense of

trajectory data: A partition-and-summarization approach. In IEEE ICDE, 2015: 963–974.

[135] J D. Fellmann, A. Getis, J. Getis, D. Shrubsole, and J. Hopkins. Human Geography: Land-

scapes of Human Activities. McGraw-Hill Education, 2013, 12th edition.

[136] C. B�ohm. A cost model for query processing in high dimensional data spaces. ACM Trans-

actions on Database Systems, 2000, 25(2): 129–178.

[137] H. Li, H. Lu, X. Chen, Ke Chen, Gang Chen, and Lidan Shou. Vita: A versatile toolkit for

generating indoor mobility data for real-world buildings. PVLDB, 2016, 9(13): 1453–1456.

129


[138] D. B. Johnson and D. A. Maltz. Dynamic source routing in ad hoc wireless networks.

Mobile Computing, 1996, 353: 153–181.

[139] J. Hopcroft and R. Tarjan. Algorithm 447: Efficient algorithms for graph manipulation.

ACM Communications, 1973, 16(6): 372–378.

[140] R. Broberg and F. Gadnell. Platform-independent indoor positioning system. Master’s

thesis, Uppsala University, 2013.

[141] Y. Tao and D. Papadias. Range aggregate processing in spatial databases. IEEE Transactions

on Knowledge and Data Engineering, 2004, 16(12): 1555–1570.

[142] D. Birant and A. Kut. ST-DBSCAN: An algorithm for clustering spatial–temporal data.

Data & Knowledge Engineering, 2007, 60(1): 208–221.

[143] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-training. In COLT,

1998: 92–100.

[144] W. Zeng and R. L. Church. Finding shortest paths on real road networks: the case for A*.

International Journal of GIS, 2009, 23(4): 531–543.

[145] X. Lu, E. Wetter, N. Bharti, A. J. Tatem, and L. Bengtsson. Approaching the limit of

predictability in human mobility. Nature Scientific reports, 2013, 3(10).

[146] A. Globerson and T. S. Jaakkola. Fixing max-product: Convergent message passing algo-

rithms for MAP LP-relaxations. In NIPS, 2008: 553–560.

130

浙江大学博士学位论文附录 A 室内移动语义挖掘方法

附录 A 室内移动语义挖掘方法

A.1 基于密度的序列分割算法

算法 A.1 DensityBasedSplitting(P-sequence Θo, Temporal distance threshold ϵt, Spatial distancethreshold ϵs, Tolerate time span ∆t, Tolerate spatial distance ∆s)

1 time-ordered sequence Asnpt ←− ⟨⟩2 cluster_id←− 03 for each record θ ∈ Θo do4 if label(θ) is null then5 N ←− RetrieveNeighbors(θ, ϵt, ϵs)6 ptm ←− GetAdaptivePtm(Θo, θ.t, ϵt)7 if |N | ≤ ptm then8 label(θ)←− noise9 else

10 cluster_id←− cluster_id + 111 label(θ)←− cluster_id12 seed set S ←− N \ θ13 for each record θ′ ∈ S do14 if label(θ′) is noise then label(θ′)←− cluster_id15 if label(θ′) is null then16 label(θ′)←− cluster_id17 N ′ ←− RetrieveNeighbors(θ′, ϵt, ϵs)18 pt′m ←− GetAdaptivePtm(Θo, θ′.t, ϵt)19 if |N ′| > pt′m then S ←− S ∪N ′

20 for each cluster id cluster_id do21 time-ordered sequence snpt←− ⟨⟩22 add all records labeled with cluster_id to snpt23 mark snpt as dense; add snpt to Asnpt

24 for any consecutive dense snippets ⟨snpti, snpti+1⟩ in Asnpt do25 if CanBeMerged(snpti, snpti+1, ∆t, ∆s) then26 Asnpt ←− Asnpt\ ⟨snpti, snpti+1⟩27 snpt′ ←− snpti ∪ snpti+1

28 mark snpt′ as dense; add snpt to Asnpt29 else30 if exists a record labeled with noise between the snippets then31 time-ordered sequence snpt←− ⟨⟩32 add all records labeled with noise in-between to snpt33 mark snpt as non_dense; add snpt to Asnpt

34 return Asnpt35 function GetAdaptivePtm(Θo, t, ϵt)36 Nt ←− range query on Θo within [t− ϵt, t+ ϵt]

37 ptm ←− ⌊ e|Nt|−N

1+e|Nt|−N ∗ 2P +B⌋38 return ptm

131

附录 A 室内移动语义挖掘方法浙江大学博士学位论文

A.2 语义匹配算法

算法 A.2 SemanticMatching(Split snippet Θ∗o, Event identification function E , Semantic region

graph GR)1 time-ordered sequence Λ∗

o ←− ⟨⟩2 if E(Θ∗

o) = stay then3 δ ←− stay; τ ←− [head(Θ∗

o).t, tail(Θ∗o).t]

4 for each positioning record θi in Θ∗o do

5 N (i) ←− find the k nearest neighboring records of θi

6 conf(i) ←−(∑

θj∈N(i) distI(θi.l,θj .l)

|N (i)|

)−1

7 sum_conf←−∑

θi∈Θ∗o

conf(i); l←−∑

θi∈Θ∗o

conf(i)sum_conf · θi.l

8 π ←− search GR for a region r that contains l9 λ←− (π, τ, δ); add λ to Λ∗

o

10 else11 δ ←− pass-by; λ′ ←− null12 for each positioning record θi in Θ∗

o do13 τ ←− [θi.t, θi.t]14 π ←− search GR for a region r that contains θi.l15 if π = λ′.π then16 λ′.τ ←− λ′.τ ∪ τ17 else18 if λ′ is not null then add λ′ to Λ∗

o

19 λ′ ←− (π, τ, δ)

20 if θi = tail(Θ∗o) then add λ′ to Λ∗

o

21 return Λ∗o

132

浙江大学博士学位论文附录 A 室内移动语义挖掘方法

A.3 移动知识构建算法

算法 A.3 MKConstruction(Semantic region graph GR, Set of original ms-sequences SΛ)1 hash tableMK : ⟨R ×R⟩ → ⟨P, TP⟩2 for each directed pair of stay regions ⟨rqs, rqe⟩ do3 MK[⟨rqs, rqe⟩]←− ConstructForOnePair(GR, SΛ, ⟨rqs, rqe⟩)4 returnMK5 function ConstructForOnePair(GR, SΛ, ⟨rqs, rqe⟩)6 candidate path set P ←− A*-Search(GR, rqs, rqe)7 transition probability TP : (R×R)→ probability8 hash tableHPT : PT→ count9 for each ms-sequence Λo in SΛ do

10 for each matched segment ⟨λqs, λ

▷i , . . . , λ

▷j , λ

qe⟩ in Λo do

11 PT←− ⟨r▷i , . . . , r▷j ⟩12 HPT[PT]←−HPT[PT] + 1

13 hash tableHs : (R×R)→ score14 for each entry ⟨PT, count⟩ inHPT do15 P ′ ←− find a subset of paths that hold PT16 for each path ϕ ∈ P ′ do17 ωϕ ←− L(ϕ)−1/

∑P ′ L(ϕ)−1

18 for each directly connected regions ⟨rk, rl⟩ in ϕ do19 Hs[⟨rk, rl⟩]←− Hs[⟨rk, rl⟩] + count ∗ ωϕ

20 for each region ri covered by path set P do21 Out(ri)←− find the enterable regions when leaving ri22 for each region rj in Out(ri) do23 TP[⟨ri, rj⟩]←− Hs[⟨ri,rj⟩]∑

r∈Out(ri)Hs[⟨ri,r⟩]

24 return ⟨P, TP⟩

A.4 移动语义推断算法

算法 A.4 MSInference(Observed ms-sequence Λo, Hash tableMK, Semantic region graph GR)1 for each observation ⟨λq

s, λ▷q , λ

qe⟩ ⊆ Λo do

2 ⟨P, TP⟩ ←−MK[⟨rqs, rqe⟩]3 ϕ←− InferMostLikelyPath(P , TP, ⟨λq

s, λ▷q , λ

qe⟩)

4 for each region rx in ϕ do5 τx ←− InferDurationTime(rx, ϕ, GR)6 if rx has been observed in an m-semantics λx then7 Λo ←− Λo \ λx; τx ←− τx ∪ λx.τ8 Λo ←− Λo ∪ (rx, τx, λx.δ)9 else

10 Λo ←− Λo ∪ (rx, τx, pass-by)11 return Λo

133

浙江大学博士学位论文攻读博士学位期间的研究成果

攻读博士学位期间的研究成果

[1] Huan Li, Pai Peng, Hua Lu, Lidan Shou, Gang Chen, and Ke Chen. E2C2: Efficient and

Effective Camera Calibration in Indoor Environments. ACM International Joint Conference

on Pervasive and Ubiquitous Computing (UbiComp), 2015: 9-12. (CCF-A类会议，短文)

[2] Huan Li, Hua Lu, Xin Chen, Gang Chen, Ke Chen, and Lidan Shou. Vita: A Versatile

Toolkit for Generating Indoor Mobility Data for Real-World Buildings. Proceedings of Very

Large Data Bases (PVLDB), 2016, 9(13): 1453–1456. (CCF-A类会议，短文)

[3] Huan Li, Hua Lu, Lidan Shou, Gang Chen, and Ke Chen. In Search of Indoor Dense

Regions: An Approach Using Indoor Positioning Data. IEEE Transactions on Knowledge

and Data Engineering (TKDE), 2018, 15 pages. (CCF-A类期刊，长文)

[4] Huan Li, Feichao Shi, Hua Lu, Gang Chen, Ke Chen, and Lidan Shou. TRIPS: A System

for Translating Raw Indoor Positioning Data into Visual Mobility Semantics. Proceedings

of Very Large Data Bases (PVLDB), 2018, 4 pages. (CCF-A类会议，短文)

[5] Huan Li, Hua Lu, Lidan Shou, Gang Chen, and Ke Chen. Finding Most Popular Indoor

Semantic Locations Using Uncertain Mobility Data. IEEE International Conference on Data

Engineering (TKDE), 2018, 14 pages. (CCF-A类期刊，在投)

[6] Huan Li, Hua Lu, Gang Chen, Ke Chen, Qinkuang Chen, and Lidan Shou. Towards Trans-

lating Raw Indoor Positioning Data into Mobility Semantics. Proceedings of Very Large

Data Bases (PVLDB), 2018, 13+4 pages. (CCF-A类会议，在投)

135

浙江大学博士学位论文致谢

致谢

初，余于蜀修计算之术学，习毕，始觉学之浩渺，而复拜于浙滨求是园。窗间过马，历

之六载，恳恳悱悱，略有体悟，故表一文，以概所学。忆之昔时，余虽不器，然受教于师

长，蒙益于同学，踉之跄之，至今时而小立。余非矫作之徒，惟感怀此恩，喻情造文，以

是铭谢。

吾师陈刚教授，博知鸿才，德识兼具。虽务重少暇，亦常拨冗授业，传道释惑，忱忱

数言，使我弟子之辈顿开茅塞，垂教之恩，常铭于心。吾师寿黎但教授，睿智渊学，修业

严谨。先生不以余愚钝，诱之谆谆，期之殷殷，言传身教，凝其心血，使余得窥科学之殿

堂，乃有今日之寸进。吾师陈珂教授，识人善诱，宽厚谦和。因其材而施其教，悉其惑而

解其忧。先生知余之困顿，常衔担虑，教诲之情，无时或忘。余尝游学在外，幸拜吾师陆

华教授。陆子不止授业解惑，更教研究之大道，于研孜孜不怠，于究一丝不苟，常施弟子

珠玑，当字字推敲苦心孤诣，余由是相形甚惭，耳濡目染，方知细节显文章、微处见大德，

每念及此，铭感五内。吾师门固本，有伍赛教授予以点拨，亦获益匪浅。余求学以来，沐

浩浩师德、楷楷学风，今学业虽竟，受之训导当裨及一生。

砥砺岂必多，一壁胜万珉。余有少年英才之益友同力协契。余之长曰王振华、周显锞、

朱珠、骆歆远、毛旷、张超、彭湃、顾晓玲等数贤；余之同窗曰赵王军、王俊俏、李梦雯、

邝昌浪、唐思、刘博文、何平、庞志飞、陈鸿翔、柴一平、常鹏飞、张之宣、李邦鹏、于

志超、陈欣、王凌阳、赵萍、喻影、史飞超、张嘉伟、孔玲玲、俞佳炳、王俊福、陈钦况

等数贤。余求索之中屡有不济，兄歆远、湃，姊晓玲，或悉心指引，或相与分忧，此热肠

挚助，不胜感激。

余年十七时，意气风发，咸有不顺，恃之，常效昔贤抒怀抱利器之感；后经大考受挫，

始寡欢，欲奋起而历重疾，又寡言，至此判若二人。余每遇彷徨，心潮低抑，欲投笔言弃

之时，余父母常良言规劝、宽言相藉，使余反躬自省，愈挫愈起，终不至半途而废、徒增

悔恨。余妻静洋，知吾志，亦知吾苦楚，余每及蹙眉踌步、失意落魄之际，当缄然以待，而

后从容开释。余寒窗数载，妻持家经营，未有片怨。余有一子既周，皆父母与妻扶持，余

亦未有杯水之劳矣。为人子，未尽孝悌而蒙厚爱；为人夫，未问冷暖而得谅恤。落笔至此，

涕零感激，亦羞愧难当，书尽辞藻，不足陈情之万一。

余今年二十又七，为昔时当已立于天地，而今始足稷下未有一绩。然漫漫强健之路，

137

致谢浙江大学博士学位论文

焉得无坎坷羁绊？吾幸得良师益友、至亲佳侣相伴，当信步高歌、谈笑相对。余素仰苏子

东坡，读其文，常有小悟，惟据其金句以自勉，曰莫听穿林打叶声，何妨吟啸且徐行。

门下生李环

如月夜疾书于陋居沉风斋

138

博士学位论文 -...

Documents

Transcript of 博士学位论文 -...