搜索引擎是信息时代的利器,推动着互联网应用、技术的发展。网络空间大搜索是指面向泛在网络空间中的人、物体、信息和服务,在正确理解用户意图基础上的,基于从网络空间大数据获取的知识,给出满足用户需求的智慧解答。区别于传统搜索,网络空间大搜索有泛网的获取、知识融合、用户感知、智慧解答、安全可信等五个特点。

中文名

网络空间大搜索

外文名

Cyberspace Big Search

背景

搜索空间从面向信息的互联网扩展到了人、机、物互联的泛在网络空间。互联网、移动互联网、物联网、传感网等技术的迅猛发展促进了网络空间的日趋繁荣,使得传统搜索引擎的搜索空间由单一的互联网发展到了泛在的网络空间。泛在网络空间是一种建立在互联网基础之上的具有自适应性的智能网络,它通过各种有线和无线网络与物联网、互联网、传感网等的融合,综合应用海量的传感器、智能处理设备等终端,实现物与物、人与人等之间在任何时间、任何地点的安全有效连接,并在上面运行了海量的软件、服务和应用。泛在网络空间以深度环境、内容感知为基础,实现人机物三元世界中的社会资源、信息资源、物理资源的高效深度融合和综合利用,为个人和社会提供无所不包、无所不能的信息服务和应用。网络空间的扩展,使得搜索引擎的范围由互联网扩展到“互联网+物联网+传感网”所形成的泛在网络空间,使得搜索对象由传统的信息扩展到了物体、信息、人物和服务。搜索空间的扩展使得传统的面向关键字的搜索不能满足用户对物体、信息、人物和服务搜索需求,搜索引擎必须进行完全创新性的、颠覆性的、革命性的变革。

网络应用模式从Web1.0发展到了Web3.0。当前,网络应用模式从靠点击流量取胜的综合门户Web1.0时代,发展到高度交互人人都可参与的Web2.0时代(如社交网络应用等),并向更高级的服务化、高度智能化的Web3.0应用模式发展。在Web1.0时代,主要以静态、单向阅读的静态网页为主,其特点是由商业公司和少数人将大量的信息编辑并上传到网上,用户通过浏览器获取信息,属于制造者和消费者之间的关系。这些搜索引擎主要采用网络爬虫技术获取互联网上的Web网页,按内容建立倒排索引,根据用户输入的关键字进行检索,再利用PageRank等算法对搜索结果排序,即可满足人们按关键词在互联网上快速搜索相关内容的需求。在以社交网络为代表的Web2.0时代,任何人既是网络信息的消费者,也是网络信息的制造者,并相互影响,频繁交互。Web2.0应用主要包括:微博、微信、论坛、贴吧、博客、百科全书、网摘、P2P、即时信息等。这些应用生成了更多的数据,主要包括:带有时间位置的时空交通数据;用户产生的图片和音视频数据;用户情报数据和司法数据;用户产生的大量健康医疗数据;表达用户对某事件具体想法的数据;用户讨论话题内容不断演化的数据;人与人之间的互粉、交流等交互数据。Web3.0语义网络是以网络化和个性化为特征,提供更多人工智能服务的语义网,为人们提供更加个性化的智能服务。显然,传统的Web1.0搜索引擎已不能应对上述变化,大搜索需要新一代的、革命性创新的搜索引擎。

大数据时代的到来

“大数据”是指在一定时间内难以依靠已有数据处理技术进行有效采集、管理和分析的数据集合,它通常满足“5V”特点:规模大(Volume),从TB级别跃升到PB甚至ZB级别;数据类型繁多(Variety),如文本、视频、音频、图片等及其变化组合;速度快(Velocity),数据高速生成,要求实时处理;不确定性(Veracity),数据不确定,来源不可信;有价值(Value),大量的数据中存在极有价值的信息。目前,企业利用自己拥有的大数据为自己进行服务,但如果数据是可交换及开放的,发掘能力也是通用的,大数据就可以为其他企业及社会大众创造价值。随着数据的不断发布和公开,一种通用的、智能化的、泛在的大搜索技术正成为迫切需求。

发展

国家自然科学基金委员会第120期双清论坛于2014年9月28日-29日在北京召开,与会代表围绕网络空间智慧搜索暨网络空间大搜索理论与技术的研究现状、发展趋势及面临的挑战进行了热烈讨论和交流,初步提出了该领域急需关注和解决的重要基础科学问题。