龚健雅:时空大数据时代的挑战与思考
来源: 发布时间:2017-07-05 13:12:16

6月13日,第六届WGDC大会在北京国家会议中心隆重开幕。大会由空间信息产业创新创业服务平台泰伯主办,秉承不断引领和促进空间信息技术创新与变革的宗旨,WGDC已走过六个年头,如今已成为全球最具前瞻性的跨界创新风向标。

在本届大会主会场上,中国科学院院士、泰伯研究院名誉院长龚健雅做了特邀演讲。

20170614104950686

以下为演讲实录(内容未经本人审核):

各位领导、各位来宾,还有各位同事,今天非常感谢组委会邀请我来这里做一个交流。

我首先声明一下,这个报告里面没有很多太深的东西,我在这里可能更想给大家带来一些思考,或者是在面对时空大数据时,我们目前存在的一些问题。当然作为一名教授,在逻辑上,我可能会把目前的一些内容进行梳理,首先从以下这几个方面看整个地理信息科学技术和服务的发展。

一、数据获取:开始从测绘遥感到社会感知。今天看到程涛教授很多的技术手段不是测绘遥感的,而是以社会感知的方式。

二、数据管理:开始从静态到实时。

三、数据分析:从空间到时空一体化分析。

四、应用:尤其是今天看到很多的公司,可能不是直接面对专业化应用,而是到了大众化的应用层面。

下面我分几个方面进行介绍。

首先看一下信息的获取。对于一个社会来说,信息获取由三个大部分组成,一个是物理,一个是人类本身,一个是信息。从物理世界、人类社会到信息空间,可能以前更多偏重于右边,通过测量、遥感、传感器和野外的调查来获取数据,现在从社会感知设备,从网络、Web或者是智能手机、移动网络、导航定位设备、可穿戴设备以及视频等途径获取各种信息,其中的信息获取方式发生了深刻变化。当然称谓也是非常清楚,遥感也是学了几十年,这些信息让我们获取了很多的信息。最近几年传感的发展,从地表的传感到水下的传感的应用都已经成熟,大量应用于环保、气象以及各个部门。今天应用的除了物理感知之外,更多是社会感知。

第一感知渠道是互联网。像Facebook、微博、微信等有大量的信息每天都在网上,这些信息大量反映经济社会发展的现状,也包括人文的一些理解和信息,也包括人的相关观点模型。第二,智能手机。很多学者对智能手机的应用做了各种各样的应用方法,包括个人的行为。第三,导航设备。今天百度给大家看了很多交通的信息,我们的导航信息提供的,包括实时的交通信息、路况各种信息,都是由导航设备得到的。第四,视频监控。城市里头现在有大量的视频,每个城市都有几十万、上百万,这些视频从原理上说既是感知物理世界的视频,同时也是感知人类社会的一个视频。对人流量感知,对突发事件的感知,都会有很大的信息获取。最后,可穿戴设备。现在很多人戴的手环、表,这些可穿戴设备本身提供很多的信息,包括个人、群体的信息等。

现在的问题是遥感获得了一些信息,社会感知传感器获得了一些信息,而这些信息从理论上来说可以更好理解客观的世界、物理的世界。但是挑战相当明显。

第一个挑战是大家都知道测绘遥感有严格的产品标准和生产技术规程,社会感知数据没有标准规范,模态多样、杂乱无章,如何梳理成可信的数据是一大挑战。现在做了很多年的研究,基本上没有哪个部门说用这些研究的东西做一个正式的决策,但是我们测绘遥感的数据,大家用的都非常顺手。如果两类数据要融合的话,它的量不一致,时空尺度不一致,精度不一致,可靠性不一致,两类数据如何集成,信息和空间如何融合?这是第一个挑战。

第二个挑战是从动态到实施,以前做研究获取信息的方式,无论是测绘还是遥感,都是在某一个时刻经过时得到的信息。往往把数据导到数据库里面进行管理,但是今天从传感出来和各种感知设备出来之后,这种管理的模式已经不再适应。我们迫切需要发展一种新的地理信息系统,也就是实时的GIS。

我们的GIS数据库,从原来传统的GIS发展到时空,以前时空相对来说只是一个版本的问题,或者是更新状态的表达。现在真得要发展的是实时的获取和实时的计算分析,这个时候它整个的管理,从传感器的数据进来,社会感知的数据进来,动态的更新、动态的索引,以及动态的分析和服务,这个时候需要实时的地理信息系统。

第二部分讲一下数据管理这块。前几年,在国家的“863”支持下,专门开发了一个实时的地理信息系统。这个系统首先第一件事是说要有一个数据模型,这个数据模型从原来传统的数据模型加上这个状态,用事件来驱动,再用整个的时空过程,无论是模拟还是关联都需要得到这些信息。这个里面需要传感器,也需要感知的设备,每时每刻得到数据,这是一个很严格的模型。最关键的一点是,我们不能用传统的关系型数据库,我们知道关系型数据库重要的特点是并发控制,当你加一条记录时,必须要锁住数据库,这个时候需要采用非关系型的,数据流随时进来,这个时候不需要锁数据库。所以我们要有一个索引是实时动态的,以前做GIS知道把这个数据库导入进来,呈现一个索引,非常费时间。如果这样的话,就无法大量实施。现在我们采用MongoDB非关系型数据库,数据随时随地进来,随时随地进行计算,不需要把它锁住,这解决很大的痛点。另外还要有索引,索引是在流入的数据过程中自动增加和改进,在整个过程中不需要重新建数据,后面开发一个管理系统。我想这是实验室开发的管理系统,索引的数据可以实时进来,这些实时的数据包括机动车,包括飞机,大量的数据实时进来。以前做的很多人看到是文件管理,而GIS是GIS,文件是文件,现在把它们合在一起,是整个在数据库下面的实时分析。

现在的问题是什么呢?传统的数据库以前只能管理室外,扩展以后可以管理空间数据。现在要甩开数据库了,能不能用非关系型数据库来管理传统的影像等,在计算的时候能不能再次计算,同时同步计算,效率非常高,这是一个挑战问题。第二个挑战问题,要来接社会感知的数据,社会感知的数据杂乱无章需要清理,清理后需要入库还是在线清理,都是一系列的问题。传感网的数据很大,是把传感网的数据直接存进来,还是摘取,这都对我们带来挑战。

第三部分讲一下数据分析这块,我们学了几年的GIS,其中有一门课就叫空间分析。最典型的空间分析,大家知道叠置分析、缓冲区分析、网络分析,这些东西很经典做了很多年,它在做的时候应该说非常可信的。

这是广州市利用叠置分析做它的道路,整个算法和结果都非常可信。这是缓冲区分析,这是网络分析,大家认为网络分析在10年、20年以前还有可研究的东西,现在没有了。现在随便在导航系统里头只要发这个点到那个点,算出来的路基本上不会有错误。但是,我的意思是说空间分析的算法,已经在教科书里头,而且比较成熟。但是后面最近几年的发展,包括传感网的发展数据已经进来了,我们也做了分析,这是一个例子,几万个传感器都连进来,从管理来说没有问题。实时的一些计算也在做,做了以后也能够算出来一些,但是这些传统的包括实时的动态模拟,我认为这些还是有不少的挑战。现在通过降雨量,通过土壤的湿度分析预测水位,都有一系列的模型和算法。

对时空网络的分析,除了刚才讲的静态的网络,现在已经开始有动态的网络。今年百度也分析了,每一个城市网络之间的人群分析。我们要挖掘这些城市的特征和城市的一些人群变化规律。对城市人群活动空间,我们出了很多图,科学家们发明了很多的方法。今天程涛教授也讲了一下基于统计的分析,基于机器学习的分析。在不同的时间,对于整个的居住区、办公区、商业区的分析,都做了大量工作,这是时谱曲线。针对出租车做了大量分析,通过出租车的轨迹,来分析交通的关键节点,里面有很多的关键网络提取和研究方法。包括动态目标,人、车实时的状态分析,都做了大量工作。

但是,与我们传统的GIS相比,我们有很好的空间分析方法,这些空间分析方法经过几十年的发展已经成熟了,也在教科书里头。但是对于时空数据的分析这块,看到很多的文章发表,最近文章发的都很多。但是现在的问题是这些方法是不是有普世性,是不是可信、可靠,我想从理论上来说还需要很多年的时间。但现在的问题是说,我们这次大数据的潮流来得太大太快太猛了,可能来不及测试这些方法,他们的可信度、能力怎么样?这些都需要进一步梳理和分析。

最后一部分,数据的应用。从专业到大众,最早做GIS的都知道数据是为了地图服务,数字制图,从原来的手工制图通过计算机采集以后,能够在计算机飞到纸质上。后来应用到土地利用规划,国家最早的应用领域是测绘,第二个是规划和国土。在国土得到大量的应用,现在GIS已经成为了必须要用的工具,无论是规划领域还是土地领域,像土地变更调查完全都是基于GIS做的。在国土土地的交易,城市管理,我们国家的城市管理,特别是网络化管理以后,主要的城市都实现了各种各样的管理和决策系统的开发,包括城市的状态,城市的一些办公、案件,各个GIS的公司目前在这个层次上都有大量的工作,技术也都非常成熟。

现在的发展到了两个方向,一个是大众,大众里头最多的每天出行,百度说一天90几亿的访问量,我想可能导航最多。除了这些导航之外,可能大家到哪个地方找酒店,到哪个地方找餐馆,到哪个地方找旅游景点,只要有一点文化的人能够上网都可以使用。包括滴滴打车、共享位置、大众点评,很多了。以前网络对于大众来说只是获取信息,另外一个发展趋势是大家贡献信息、提供信息,通过公众本身就能够建立一个地理信息系统。对大众来说,信息已经开始从应用走到产生。

有一个问题也需要思考。GIS是个专业,传统的GIS系统要经过培训才能应用。包括对政府工作人员的培训,大众能不能用?或者用的怎么样?从目前来看还是用的不错。就是说你给一些功能,大众本身就有很好的用法,不用太复杂,这没有问题。但是从数据来说,专业GIS对数据有严格的检查,可信度高。大众做的GIS,这个时候大家是否放心,质量如何保证?这些都需要重新思考来做的事。网上有很多的GIS应用,可能各种应用都有,但是目前的用户都在不同平台上开发。有些可能在百度上开发,有些可能在高德开发,现在不同平台上开发的系统,能不能共享和融合。今天李朋德局长举的例子,可能很多的共享单车都应用GIS,但是本身做GIS系统时没有共享,都不在一个平台上开发,这个时候如何保证信息的共享,这些都是值得我们思考和解决的问题。

最后,还是以这个做总结。从发展趋势来说,GIS已经从测绘遥感发展到社会感知,当然不是说测绘遥感的问题都解决了。现在很多的研究学者面临很多的问题是社会感知的传感器进来的数据,我想今天有不少的报告都涉及到。

第二,从数据管理来说,从原来的静态走向实时。实时里面,除了管理之外,还是实时的分析和实时的计算。进一步我想目前的开发者可能还没有意识到,但是你要做一个真正应用系统时,从传感器和感知数据进来,政府部门做决策时,这个问题是摆在我们面前的,必须要解决,可能传统的GIS行业面临着一些挑战。

第三,数据分析。从原来的空间分析到时空分析。空间分析更多是基于统计和几何,现在时空分析统计也许还会更多地引进机器学习的分析方法,还有其他神经网络方面的分析方法。

第四,应用。从专业到大众化的应用,只有一个产业发展到大众化应用时,这个产业才会真正做大。大家都说GIS怎么也不可能到一万亿,因为你政府部门只有这么多。但只要打开了从专业到大众化的应用这条路,也许就可以到万亿级别。据说现在大概四千亿左右,我们这个产业有可能会发展到万亿。

在整个现在的技术手段、设备、软件、研究、算法这些方面如何应对?我想今天在这里给大家提一个题目,“如何面对这样的挑战”?

好,我的演讲到这里,谢谢大家!

来源:活动家

猜你喜欢