
第2章 开放数据与政府信息资源利用
2.1 信息资源管理的基本框架和关键技术
2.1.1 传统信息资源管理的基本框架
信息资源管理主要包括信息产生、信息采集、信息处理、信息开发利用和信息服务五个阶段(见图2.1)。

图2.1 信息资源管理的基本框架
1.信息采集
信息的采集方式主要有四种。
(1)手工填报:主要用于层级管理中,由下层部门通过信息系统中的相关流程进行逐项填写后上报,或采用导入的方式批量填报。
(2)数据获取:主要通过部署在物理世界中的感知设备进行实时感知信息采集,感知信息通过集中器、终端、传输网络通道等进行传输汇聚。
(3)数据交换:主要通过在各信息源部署前置机的方式,实现多信息源间的数据互联互通。
(4)数据接口:主要通过数据接口调用的方式实现数据共享和服务。
采集内容主要分为五类。
(1)基础信息:主要指管理对象、感知设备等实体的基础属性信息。
(2)实时信息:主要指来源于感知设备的实时感知信息。
(3)交换信息:主要指由相关的信息所有部门对采集的数据进行解析处理后,按照一定的交换规则共享的信息。
(4)综合信息:主要指由相关的信息所有部门将实时感知信息与基础信息和业务领域的主题信息进行整合融合后的信息。
(5)资源描述信息:主要指相关的信息所有部门可提供共享的各类共享服务资源的元数据,如应用系统元数据、Portlet元数据、页面元数据、数据库元数据、Web服务元数据等。
2.信息处理
信息处理主要完成对采集信息的加工整理,对采集过程中可能出现的噪声数据进行清洗,转换成有效数据。
(1)数据抽取:从数据采集过程形成的临时库、基础库中抽取相关的数据。
(2)数据清洗:清除脏数据(dirty data)或噪声,以保证数据质量。
(3)数据转换:通常不仅仅是数据格式的转换,外部系统中的数据可能包含不一致或者不正确的信息,这取决于外部系统中的数据情况。
转换步骤的一部分是“净化”或“拒绝”不符合条件的数据,这个阶段常用的技术包括字符检查(拒绝包含字符的数值性数据)和范围检查(拒绝超出可接受范围的数据)。被拒绝的记录通常存放在单独的文件中,使用更复杂的工具处理(或者手工改正问题),然后将这些数据合并到已转换的集合中。主要的转换方式包括以下五种:一是数据类型转换,将数据源中的不同数据类型转换成需要的数据类型;二是数据表示方法转换,命名代码统一,汉字编码同义,度量衡表示统一以及其他数据表示方法的统一等;三是命名转换,将数据模式、表名、属性名转换成统一命名方式;四是数据综合,按粒度要求对动态属性数据进行统计汇总形成综合性数据;五是数据筛选,按照分析及决策的需要从数据源中作纵向的属性选择及横向的实例选择。
(4)数据加载与刷新:将获取并转换的数据存放到新的数据库中。
3.信息资源开发利用
信息资源的开发利用主要是按照需求将采集到的信息进行整合,为上层应用等提供支撑,主要包括以下三个方面。
(1)数据关系映射:将管理对象、感知设备、实时信息、信息主体(部门)等之间建立关联关系,形成支持应用的主题信息库,在主题信息库的基础上形成信息融合库。
(2)分析建模:按照应用需求,建立分析模型,为领域应用提供调用服务。
(3)空间信息整合:通过物联信息、决策模型与空间图层的整合,实现信息的可视化、全景化、空间化呈现。
4.标准规范
标准规范的重点主要包括多源信息的统一编码、基础信息的属性规范、多源信息的共享流程、多源信息的交换与传输、信息目录、信息接入方式等。
5.信息管理
信息管理主要包括数据更新管理、数据使用管理以及数据的存储和备份。在数据更新时,必须进行数据质量控制。对入库数据质量进行严格把关。在数据入库时,对数据的合法性进行检查,并对数据之间的关系建立关联,检查源及目的数据结构的逻辑对应关系是否正确;审核数据更新标志;然后在数据提交过程中检查数据及代码的完整性、合法性,保证数据一致性。
(1)更新管理:系统数据要具有现势性,即数据要反应最新的现实情况。因此要建立和形成一种有效的、实时的数据更新机制,同时发展实用的、经济快捷的更新手段和技术方法,以保持数据的现势性,这样才能保证系统进行的查询、分析、咨询决策等结果的正确性。
(2)日志记录:数据处理日志分为三类。一是数据处理执行过程日志,是在数据处理执行过程中每执行一步的记录,用流水账形式记录每次运行每一步骤的起始时间及影响了多少行数据;二是异常日志,当某个执行过程出错的时候写错误日志,记录每次出错的时间、出错的位置以及出错的信息等;三是任务日志,只记录任务开始时间、结束时间及是否成功等信息。
(3)数据库系统安全访问控制:严格控制数据库系统的访问控制权限,对不同的用户进行不同数据库的访问控制,同时删除不用的数据库用户,确保非法用户对数据库系统的访问;对数据库用户的密码严格保密,使其不被不相关的人员非法获取;为数据库系统设置防火墙,将数据库系统设置到防火墙内,利用防火墙的安全访问控制策略,分别控制不同的用户、IP对数据库系统的访问级别;限制数据库系统的客户端对数据库系统的非法访问。
(4)备份与恢复:为了确保数据安全可靠,使信息系统正常运行,需要对信息系统的数据进行定期备份,以便在发生数据库严重故障时利用备份的数据进行恢复。数据的备份策略根据不同的数据进行不同的定义。初始化数据在加载完成后进行一次性的备份;配置数据、控制数据在信息系统每次配置变动后立即进行自动备份;信息系统的业务数据需要建立详细的备份策略实现联机和脱机两种备份。
2.1.2 物联信息管理的关键技术
随着摄像头、传感器等各种感知终端的普及应用,来源于物理世界的物联信息日益庞大,在信息源、信息载体、传输频率等方面具有区别于传统信息资源的鲜明特征,正逐渐成为城市大数据的主体。从物联网的技术体系上看,物联信息的管理涉及到“感、传、知、用”四个层面的关键技术。
1.感知层关键技术
感知层技术是物联信息采集的核心技术,按照国际电信联盟(ITU)的划分,感知层的关键技术主要包括射频识别技术(RFID)、传感器技术、智能嵌入技术等。
1)射频识别技术
射频识别技术是20世纪90年代兴起的一种非接触式自动识别技术,该技术的商用促进了物联网的发展。它通过射频信号等一些先进手段自动识别目标对象并获取相关数据,有利于人们在不同状态下对各类物体进行识别与管理。
射频识别系统通常由电子标签和阅读器组成。电子标签内存有一定格式的标识物体信息的电子数据,是代替条形码走进物联网时代的关键技术之一。该技术具有一定的优势:能够轻易嵌入或附着,并对所附着的物体进行追踪定位,读取距离更远,存取数据时间更短;标签的数据存取有密码保护,安全性更高。RFID目前有很多频段,其中集中在13.56MHz频段和900MHz频段的无源射频识别标签应用最为常见。短距离应用方面通常采用13.56MHz HF频段;而900MHz频段多用于远距离识别,如车辆管理、产品防伪等领域。阅读器与电子标签可按通信协议互传信息,即阅读器向电子标签发送命令,电子标签根据命令将内存的标识性数据回传给阅读器。
RFID技术与互联网、通信等技术相结合,可实现全球范围内物品跟踪与信息共享。但其技术发展过程中也遇到了一些问题,主要在于芯片成本;还有RFID反碰撞防冲突、RFID天线研究、工作频率的选择及安全隐私等问题,也在一定程度上制约了该技术的发展。
2)传感器技术
国家标准(GB/T 7665-2005)中对传感器的定义是:能感受被测量并按照一定的规律转换成可用输出信号的器件或装置,通常由敏感元件和转换元件组成。传感器技术是涉及物理学、化学、生物学、材料科学、电子学以及通信与网络技术等多学科交叉的高新技术,作为当代信息技术中信息获取的重要手段,已广泛应用于工业、农业、国防、医疗卫生等人民生活和国民经济建设的各个领域。
传感器技术与通信技术、计算机技术一起被称为信息技术的三大支柱,分别对应了“感”、“传”、“知”三个层面。传感器技术是从自然信源获取信息,并对之进行处理(变换)和识别的多学科交叉的现代科学与工程技术。传感器技术的核心即传感器,它是负责实现物联网中物与物、物与人信息交互的重要组成部分。
目前,传感器技术已由传统的机械结构型,经过机电型、固体传感器、集成传感器进入到微传感器和微系统的阶段,并朝着微型化、集成化、智能化、网络化的方向发展。
按照传感器的监测数据的不同,可以将传感器划分为三种:一是应用于工业领域的传感器,如温度传感器、压力传感器、物理量传感器、流量传感器等;二是民用领域传感器,如RFID传感器、二维码光学传感器等;三是多媒体类型的传感器,如音频传感器、视频传感器、无线音频视频传感器、可自由编程万能音频传感器等。
目前传感器技术越来越受到普遍的重视,它的应用已渗透到国民经济的各个领域,涵盖工业生产过程的测量与控制、汽车电控系统、现代医学、环境及军事等多个方面。大规模集成电路、微纳加工、网络等技术的发展,为传感器技术的发展奠定了基础。随着生产自动化程度及人们生活水平的日益提高,对传感器的要求也日益提高。技术推动和需求牵引共同决定了未来传感技术的发展趋势,主要包括四个方面。
(1)微型化:采用微加工手段和纳米制备技术,可加工出特征尺寸达到微米甚至纳米的微型器件,同时带来功耗的降低。
(2)集成化:包括传感器与IC的集成制造技术以及多参量传感器的集成制造技术,缩小了传感器的体积,提高了检测精度。
(3)智能化:智能化是在集成化基础上的更进一步发展,使得信号检测具有一定的智能,包括传感器的自校准,可根据被测量的变化实时调节量程和精度、模式识别等。
(4)网络化:传感器网络化极大地增强了传感器的探测能力,是近几年来的新的发展方向。
3)嵌入式系统技术
嵌入式系统是以应用为中心,以计算机技术为基础,其软硬件可裁剪,适用于对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统。它一般由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及用户的应用程序四个部分组成,具有对其他设备的控制、监视或管理等功能。
目前,大多数嵌入式系统还处于单独应用的阶段,以微控制器(Microcontroller Unit, MCU)为核心,与一些监测、伺服、指示设备配合实现一定的功能。互联网现已成为社会重要的基础信息设施之一,是信息流通的重要渠道。如果嵌入式系统能够连接到互联网上,则几乎可以方便、低廉地将信息传送到世界上的任何一个地方。
2.传输层关键技术
传输层主要负责信息传递和信息控制,提供端到端的交换数据的机制,实现物与物之间的“互联”。目前物联信息传输的关键技术主要包括3G技术、4G技术、蓝牙技术、智能网关技术(NFC)等。
1)3G技术
第三代移动通信技术(3rd-generation, 3G)是指支持高速数据传输的蜂窝移动通信技术。3G服务能够同时传送声音及数据信息,速率一般在几百kbps以上。3G主要存在四种标准:CDMA2000、WCDMA、TD-SCDMA、WiMax。第三代移动通信系统的一个突出特色就是:在未来移动通信系统中实现个人终端用户能够在全球范围内的任何时间、任何地点,与任何人,用任意方式,高质量地完成任何信息之间的移动通信与传输。
2)4G技术
4G技术又称IMT-Advanced技术。准4G标准是业内对TD技术向4G发展的TD-LTE-Advanced的称谓。
4G通信系统采用了一些不同于3G的技术。4G中将使用的核心技术,总结起来,有下列几种:正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)、软件无线电、智能天线技术、多输入多输出(Multiple-Input Multiple-Output, MIMO)、基于IP的核心网。国际电信联盟(ITU)划定的4G标准主要有五种:LTE-Advanced、WirelessMAN-Advaneed、WiMax、HSPA+和LTE。
3)蓝牙技术
蓝牙技术是一种支持设备短距离通信(一般10m内)的无线电技术。它能在包括移动电话、PDA、无线耳机、笔记本电脑、相关外设等众多设备之间进行无线信息交换。利用蓝牙技术,能够有效地简化移动通信终端设备之间的通信,也能够成功地简化设备与Internet之间的通信,从而使数据传输更加迅速、高效,为无线通信拓宽道路。蓝牙技术采用分散式网络结构以及快跳频和短包技术,支持点对点及点对多点通信,工作在全球通用的2.4GHz ISM(即工业、科学、医学)频段,其数据速率为1Mbps,采用时分双工传输方案实现全双工传输。
4)智能网关技术
智能网关技术是应用网关技术的一种,其主要功能是自动完成对系统中大量基站监控数据的提取、处理和转发,实现系统之间的交互连接与对话。目前,智能网关技术广泛应用于通信、移动、家庭等各个方面。
物联网网关可以实现感知网络与通信网络,以及不同类型感知网络之间的协议转换,既可以实现广域互联,也可以实现局域互联。此外物联网网关还需要具备设备管理功能。运营商通过物联网网关设备可以管理底层的各感知节点,了解各节点的相关信息,并实现远程控制。
3.智能处理层技术
智能处理层综合运用高性能计算、人工智能、数据库和模糊计算等技术,对收集的感知数据进行通用处理,主要涉及海量数据存储技术、云计算技术、数据挖掘技术、SOA技术、中间件技术等关键技术。
1)海量数据存储技术
海量信息存储是一个包括网络设备、存储设备、服务器、应用软件、公共访问接口、接入网络和客户端程序等多个组成部分的系统。基本是以服务器为中心的处理模式,使用直连存储(Direct Attached Storage, DAS),存储设备(包括磁盘阵列、磁带库、光盘库、硬盘等)作为服务器的外设使用。
随着网络技术的发展,服务器之间交换数据或向磁盘库等存储设备备份时,都是通过局域网进行,主要应用网络附加存储(Network Attached Storage, NAS)技术来实现网络存储,将占用大量的网络开销,严重影响网络的整体性能。为了能够共享大容量的高速度存储设备,不占用局域网资源进行海量信息传输和备份,通常需要专用存储网络来实现。
2)云计算技术
云计算(Cloud Computing)是分布式计算技术的一种,通过网络将庞大的计算处理程序自动分拆成多个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算、分析之后将处理结果回传给用户。云计算的核心内涵是计算服务化、资源虚拟化和管理智能化。云计算的核心思想是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向用户提供按需服务。
云计算系统的关键技术主要包括编程模型、数据管理技术、数据存储技术、虚拟化技术、云计算平台管理技术等。
3)数据挖掘技术
数据挖掘(Data Mining, DM)是从存放在数据库、数据仓库或其他信息库的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。在人工智能领域,数据挖掘习惯上又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),数据挖掘也是数据库中知识发现过程的一个基本步骤。
现在,数据挖掘技术已经发展成熟的三种基础技术是海量数据搜集、强大的多处理器计算机和数据挖掘算法,并已经广泛应用于商业数据仓库和计算机自动收集的数据记录等超大规模数据库。
数据挖掘的工作过程主要包括数据的抽取、数据的存储和管理、数据的展现等。数据挖掘的工作过程如图2.2所示。

图2.2 数据挖掘的工作过程
4)SOA技术
SOA(Service-oriented Architecture,面向服务的体系架构)技术是一种松耦合的软件组件技术,它将应用程序的不同功能模块化,并通过标准化的接口和调用方式联系起来,实现快速可重用的系统开发和部署。SOA可提高物联网架构的扩展性,提升应用开发效率,充分整合和复用信息资源。
5)中间件技术
中间件是一种独立的系统软件或服务程序。分布式应用软件借助中间件技术在不同的技术之间共享资源。通过中间件相连接的系统或应用程序可以工作于多平台或操作系统(Operating System, OS)环境,并实现信息的高效交换。
4.应用层关键技术
物联网应用层的相关技术主要包括家庭物联网应用涵盖的技术和企业物联网应用的相关技术。家庭物联网应用的相关技术比如家电智能控制技术、家庭安防监控技术。企业物联网应用的相关技术现阶段比较典型的技术主要包括智能家电控制技术、石油监控应用技术、电力抄表、车载应用技术等。此外,还有对这些应用进行支撑的网络管理技术和安全保障技术。
1)智能家电控制技术
智能家电是微处理器和计算机技术引入家电设备后形成的家电产品,是具有自动监测、自动测量、自动控制及自动调节与远方控制中心通信功能的家电设备,可通过物联网的相关通信协议和控制设备相连并进行通信。智能家用电器目前所采用的智能控制技术主要是模糊控制等技术。少数高档次的家用电器也用到神经网络技术(也叫神经网络模糊控制技术),模糊控制技术目前是智能家用电器使用最广泛的智能控制技术。原因在于这种技术和人的思维具有一致性,可以用相对简单的数理逻辑在单片机或嵌入式设备上进行构造。
2)家庭安防监控技术
基于物联网的家庭安防监控技术区别于传统家庭安防监控技术的地方主要是采用RFID、传感器以及M2M(Machine to Machine,机-机)设备来完成家庭安防的监控,基于物联网的家庭安防系统主要由主控模块、图像采集模块、无线通信模块和传感器模块组成。其中无线通信模块通过ZigBee无线网络与传感器模块相连,完成家庭安防的监控数据采集。常用监控模式通过传感器模块采集突发的环境参数时,图像采集模块开始采集家庭实时图像;主控模块将图像发送到户主手机,户主确认是否有意外发生,然后在远程做出相应处理。基于物联网的家庭安防监控技术具有安装方便、成本低、人性化、操作方便、安全性高、有效安防等特点。
3)石油监控应用技术
基于物联网的石油监控应用技术是指通过传感器等相关物联网设备完成石油存储库区的烟、火、温度、湿度等环境因素的采集,通过网络将各个传感器点的数据进行传送和远程集中,并完成远程监控。当烟、火、温度等环境因素发生异常时,能及时反映到监控人员或监控设备,并可与摄像监控设备相结合,进行石油库区监控的防火防盗。
4)电力抄表技术
电力抄表技术通常采用在家庭用户的电表设备上安装传感器或其他通信装置,通过电力网络的通信模块与之通信,完成家庭用户用电数据的远程抄取,完成电力设备的智能化、远程化、自动化管理。
5)车载应用技术
基于物联网的车载应用技术主要通过无线设备采集车载物联网设备的信号,可以实时获得车辆的相关位置、速度、行驶方向等信息,并可通过相关语音通信协议建立与车辆的实时语音通信,基于物联网技术的车载应用技术目前有较广阔的发展前景。目前较常用的车载应用之一是通过车载RFID或传感器实时获得车辆的位置信息,并完成GPS信息的实时上传和下载。
6)网络管理技术
物联网具有“自治、开放、多样”的自然特性,这些自然特性与网络运行管理的基本需求存在着突出的矛盾,需研究新的物联网管理模型与关键技术,保证网络系统正常高效地运行。
7)安全保障技术
安全是基于网络的各种系统运行的重要基础之一,物联网的开放性、包容性和匿名性也决定了不可避免地存在信息安全隐患,需要研究物联网安全关键技术,满足机密性、真实性、完整性、抗抵赖性的四大要求,同时还需解决好物联网中的用户隐私保护与信任管理问题。