坐飞机可以托运多少酒:google搜索技术的终结者

来源:百度文库 编辑:微思作业网 时间:2019/08/24 19:46:49
大海 张弦
可以负责任地说,今年元旦之后的一个传言将与去年年中的一条消息一样,将引起Google、雅虎、微软等搜索巨头们的严重警惕。
Autonomy的“样板工程”Blinkx
2004年7月,一个位于美国旧金山的创业公司推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,系统经过“学习”积累了一定“经验”后,可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。
有媒体把这种搜索方式称为“占卜式”搜索,也有人将其称为“职能搜索”,提供Blinkx搜索工具的公司也叫Blinkx。
Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。
Blinkx公司同时发布了提供这种新型搜索功能的两个服务工具,一个是门户网站(www.blinkx.com),一个是在该网站上可以下载的客户端软件,该软件大小约7MB。尽管这两个工具目前仅支持英德两种语言,而且都只是测试版,但它提供的震撼性功能已经开始让传统搜索巨头们为之瞩目。
与传统搜索网站不同的是,在Blinkx的搜索框中键入用户指令,比如“CDMA”,出现的结果可能被系统自动分为10类,可能其中9类与用户的查询期望距离较大,用户就可以将接近的那个结果作为查询条件,进行第二次查询,完成“进阶式”查询,通过这种方式逐步接近目标,最后达到用户期望查询的结果。
如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Windows Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。不仅如此,它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档。这无疑给需要处理大量数据的个人和企业提供了巨大便利。
美中不足的是,Blinkx目前在中国境内没有设立服务器,所以浏览网页的速度会受到较大影响。目前,Blinkx还处于测试阶段,它从网上抓取的数据还不够多,其数据库中装载的信息还不够完善,更新频度也不够快,所以,用户可能找到结果(文档)常常比较陈旧。
2005年元旦刚过,又有消息传来:Blinkx将进入中国市场,其中文测试版已经“竣工”。据英国Autonomy公司在国内的代理商卓越动力软件(北京)有限公司称,目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统。
Autonomy公司是Blinkx公司的股东之一,后者的核心技术也来自前者,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Blinkx发布之前,Autonomy在公众中并没有太大名气;Blinkx发布之后,Autonomy仅有的名气也很快被Blinkx所超越。
Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声煊赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。
正如Autonomy产品所体现出的人文设计思想一样,Autonomy公司也诞生在人文气息十分浓厚的英国剑桥大学。
贝叶斯概率论与香农信息论的混血儿
Autonomy的创始人是剑桥大学的迈克·林克(Mike Lynch)教授。1991年,林克教授创立了Autonomy的前身Nurodynamic公司,后者是林克从一个乐队老板融资3000多美元创建的,该公司主要致力于剑桥大学模式识别研究成果的产业化工作。
到1996年时,林克教授已经积累了足够多的客户资源。于是,他向风险投资商借贷了1500万美元,创立了Autonomy。同年,Autonomy推出了世界上第一套智能个性化信息系统,同时发布了它的拳头产品DRE(Dynamic Reasoning Engine,动态推理引擎)和Portal产品系列。
Autonomy产品的核心算法是两种数学理论的独特结合:贝叶斯概率理论和香农信息论。
18世纪,英国牧师托马斯·贝叶斯曾经试图利用概率论证明上帝的存在,但他未能如愿,不过,他所创立的贝叶斯定律却奠定了现代概率论的基础。两个多世纪以后,这个定律成了Autonomy发家致富的敲门砖。不少数学家认为,贝叶斯定律描述的逻辑是一种跟人类思维模式最接近的数学逻辑,它通过一个概念出现频率的多少和与其他概念之间的关系来决定其成分的重要性。
香农信息论则提供一种方法来提取一篇文章诸多概念之中最有意义的部分。香农信息论最基本的理论是:一个词重复频率越高,其内容越不具有概括性,反之,一个词重复频率越低,其内容越丰富。
Autonomy中含有一个动态推理引擎(Dynamic Reasoning Engine,DRE),它是一个扩展性很强的、多线程的核心引擎。信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都由动态推理引擎来完成。它是一个跨平台的引擎,可以在多种硬件和操作系统环境下优化运行,支持从Intel PC使用的Windows NT到多处理器小型机运行的UNIX等系统环境。它可以与各种不同信息源相连,如互联网、数据库、内部网和本机数据库、文件系统等。当用户发出搜索指令后,它可以通过概念分析、模式识别、相关度计算等方法,从不同的数据源中找到与用户要求最匹配的信息。
从“搜索(search)”到“发现(discover)”
Autonomy在保留了传统搜索方法的基础上,还发展了新的方法。
目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,这两个技术方向的研究难度相对较大,估计一时半会不会有突破性研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。
传统搜索基本上采用“关键词”搜索方式,也就是“非0即1”的方式,它基于严格定义和分类的布尔表达式,即“与、或、非”表达式。这样搜索的最大弊病就是:如果关键词不确定,或者有错误疏漏,用户往往得不到自己想要的搜索结果。
但在实际应用中,用户常常很难用具体而明确的关键词来描述自己想找的东西,比如上述的“最便宜的笔记本电脑”等等。甚至在有些时候,搜索出来的结果大部分与这个关键词并没有太大关系,只是结果文章中出现过这个词而已。例如,一个用户希望了解污染对企鹅造成的影响,使用关键词搜索法,键入“企鹅”,搜索结果可能带来一些有用的信息,但同时也有大量不相关的文章,如“企鹅出版公司”、“企鹅牌巧克力”、“企鹅冰箱”等。
采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索。即它会对用户键入的检索内容进行语意上的分析,然后对海量信息进行概念匹配,找出在内容上最接近的数据提供给用户,所以可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。
如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。
如果一个用户需要知道“本月最热门的IT新闻事件有哪些”,使用Autonomy的“聚类”功能就可以得到近乎完美的答案。第一步,用户先设定一些需要搜索的目标网站,根据“本月最热门的IT新闻事件有哪些”这个需求,这些目标网站自然是一些IT新闻网站;第二步,通过Autonomy的DRE对这些网站上本月内报道的IT新闻进行检索;第三步,对这些新闻进行分类,报道数量最多最频繁的前几件事情就是“本月最热门的IT新闻事件有哪些”的候选者。这是没有计算机帮助时的人工作法,现在,这些步骤都由安装了Autonomy软件的计算机来完成,用户只需要“发动”一下这个系统:给“本月最热门的IT新闻事件有哪些”这个搜索需求设定一些关键参数。
当然,设置关键参数对非专业人士而言并不是一件容易的事情,一开始可能有些麻烦,不过,随着这个不断“学习”的系统的后台数据库数据量的增加,用户需要设置的参数可能会越来越少,甚至做到直接用“本月最热门的IT新闻事件有哪些”就可以一步到位搜索到用户所需要的。当然,用户这个系统不可能像google的检索数据库一样包罗万象,只能在某些个别领域(如IT新闻、环境污染等)成为一个“专家”,这个“专家”在面对来自其他领域或行业的问题时,一开始一样是个傻瓜。
处理非结构化数据的利器
“只要存在非结构化数据,就对autonomy有需求。”Autonomy公司的代理商卓越动力认为,对于那些非结构化的数据,Autonomy提供的功能是十分有效的。而随着互联网的大规模普及,非结构化数据将越来越多,远远超过了结构化数据的数量。对于企业而言,如何处理数量如此庞大的非结构化数据,比个人的需求更加迫切。
企业对文档的处理可分为三个发展阶段。最初是文件系统,通常是树型目录结构的文件管理器。当文件大量出现后,树型目录已经无法管理一些逻辑性和结构性很强同时又关系复杂的数据,于是出现了关系型数据库,通过数据库管理工具对数据进行安全管理、备份管理、分类管理等,也就是把非结构化文档结构化,变成计算机能够读懂的数据和关系。这是第二个阶段。
第三个阶段是在互联网出现后,随着大批非结构化数据的出现,单纯将非结构化数据转化成结构化数据的工作需要耗费大量的人力和物力,同时还往往需要把结构化的数据又重新以非结构化方式输出,这样转换来转换去,导致了大量资源浪费和成本支出。所以,如何不转换就能直接处理非结构化数据,成了迫在眉睫的问题,Autonomy的功能正好应运而生。
Autonomy通过保持数据原型,通过架设自己的平台来对数据进行管理。从而完成从信息与信息的互动,到人与信息的互动,最终达到人与人的互动。此外,Autonomy还可以建立文字与视音频片段的对应,从而完成新闻媒体里的新闻和谈话节目的数据管理工作。
目前,Autonomy在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。
2003年3月,Autonomy进入中国市场,目前主要集中在电信和政府市场。在企业内部,Autonomy是追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。“搜索”不是autonomy的最终目的,抽取最需要的信息进行“信息集成”,搭建知识管理平台才是Autonomy的应用方向。
Autonomy代理商卓越动力认为,政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。
Autonomy曾经在美国本土安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用。因为对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。
随着互联网的多元化,大量网上违法信息都不以关键词形式出现。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。
资料
Autonomy的工作原理
Autonomy的核心是建立在独特的信息论和概率论的基础之上的模式识别技术,它可以保证对任何形式的信息:文本文件或基于语音、视频、非结构化或结构化的实际内容的基本理解。
现在网络应用软件主要为三层结构:用户界面层、应用软件层和数据层。这样的结构所存在的问题是,不同的应用软件不能实现信息共享。信息源与信息源之间有不可跨越的屏障,来自不同信息源的信息有不同的格式。Autonomy创建了一个新的信息层:智能信息操作层IDOL,自动把各个信息源和各种文件格式统一在一个智能的信息操作系统之下,这个智能信息操作系统可以提供多种信息操作的功能,比如信息的实施自动链接,信息自动分类,内容概括,信息聚类等。
Autonomy在系统内创建一个新层,即智能数据操作层(intelligent data operating layer, IDOL),从而使企业系统“以数据为中心”。该操作平台后端与各种数据源相连,可以根据任何语言和格式进行内容搜索,不论内容存放在哪里,自动实时地将总结以及与其类似信息的链接呈现出来。由于autonomy的技术是建立在概率性建模之上,因此不依赖任何语言进行分析,无需维护任何繁琐的词表,IDOL将此看成是意义的抽象符号,它通过词出现时的上下文环境而不是通过严格的语法定以来形成对该词的理解,从而识别进入到autonomy架构中的任何数据的语言特性。
另外,autonomy还具有分类和聚类功能。IDOL自动根据非结构化文本中的概念对信息进行分类,可以保证根据内容对所有数据进行最准确的分类。而自动聚类可以收集大量的文档数据或用户档案信息,并且自动识别出信息内的主要类别,让IDOL自动的持续一致的计算新的信息应该属于哪个类别。