棉靴厂家
免费服务热线

Free service

hotline

010-00000000
棉靴厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

由语义分析探框计算背后的技术秘密

发布时间:2020-02-11 03:20:15 阅读: 来源:棉靴厂家

在9月2日的2010百度世界大会上发布之后,百度应用开放平台立刻成为互联网业界关注的焦点,激赏者普遍认为它“即搜即用”的思路是面向中文互联网需求的重要创新,亦有质疑的声音认为,“框计算”汇聚数据和应用的方式将造成互联网流量的“黑洞”。

新生事物引发争议本无可厚非,但在笔者看来,针对互联网业务的讨论一旦聚焦在眼前利益的分配上,便可能忽略互联网业界以技术推动业务创新、催生市场变革的本质。因此我们不妨换一个角度,从“框计算”的两端来看看支撑起应用开放平台的搜索技术。

按照百度的构想,应用开放平台瞄准的是互联网用户“寻找应用”的需求,因此“读懂”用户的需求就是至关重要的第一步。李彦宏在百度世界大会上举例说明了行为分析的难度——每天对以十亿计的用户行为进行记录、统计和分析殊为不易。但时间所限,他对语义分析未做深入阐述。实际上语义分析在数年前就被称为“推动下一代搜索的重要技术”,只可惜除在一些专业知识领域外,尚未得到大规模应用。

在以HTML为主体的内容搜索范畴内,语义分析固然有“透过现象看本质”的可能,可毕竟不如基于关键字的索引与检索来得直接。加之用户积累的习惯使然,搜索引擎难以建立起完整的知识库和高效的推理引擎,而这正是实现深入分析与精准处理的语义搜索引擎所不可或缺的基础架构。

但在搜索应用的情况下,用户会更倾向于用自然语言来表达需求。这样一方面给知识库的积累和推理引擎的学习提供了源源不断的原始数据。另一方面,搜索引擎基于分析推理给出的结果,也可以帮助用户明确需求,推动人机之间的智能交互。

搜索应用的服务和语义分析的技术配合起来相得益彰,这就是笔者对“框计算”的第一个兴趣点。互联网发展到现在,“一招鲜”的技术创新已然不大可能;展开来想,以百度为代表的中文搜索确有许多技术方向和创新方式值得细细咀嚼。下面谨以笔者个人的一些思考作为引玉之砖:

首先,从分词到辨句释义,理解自然语言势必要求百度“更懂中文”的能力再上层楼;这需要计算机、语言文字、社会文化环境等多个学科的紧密合作才能实现,百度是如何做到的?

其次,虽然后台搜索的类型、机制不同,但呈现在用户面前的搜索框却是唯一的。用户经搜索框提出的需求需要经过后台分析后分发处理——搜索内容要的是网页URL,搜索数据要的是直接呈现的结果,搜索应用要的是即搜即用的操作。准确识别用户的查询意图,百度是如何做到的?

第三,语义分析的过程需要强大计算能力的支持。用户只关心检索结果,而不关心如何实现。然而,不仅语义分析的推理过程会带来检索负担,支持推理的知识库规模也会几何级数倍增。同样,对于用户行为的记录、分析也离不开人机互动和高效率海量运算的支撑。应对“框计算”带来的计算负荷,百度是如何做到的?

第四,对搜索应用的结果进行排序亦是一个艰深的技术课题。众所周知,内容搜索主要基于用户查询与网页文档的字面匹配来进行排序。但搜索应用往往使用描述逻辑,得出的结果通常是一类对象(应用)的集合。排序这些对象(应用)有赖于对它们彼此关系的分析,也需要根据应用使用者的反馈做出评分;建立一套新的排序模型和算法,百度是如何做到的?

第五,在类型日趋丰富的互联网终端上,百度怎样考虑搜索与触控、语音识别等自然用户体验做深层次结合?

查阅李彦宏在百度世界大会对“框计算”的讲解,有这样一段,“用户有各种各样的需求,通过一个简单的框进入到框计算的体系当中。在框计算的另外一端我们通过一些开放的接口让各种各样的应用、内容、数据很容易地提交上来。中间这一部分我们称之为需求分析。这里面的技术含量是非常高的,它包括了语义的分析、行为的分析、智能的人机交互和海量的计算。这个事情为什么很难呢?因为人的表达方式是多种多样的,用词、用语和实际的需求通常有差距……所以,框计算集合了这四种技术应用才能对需求进行分析,分析之后对平台进行分发。”

诚如斯言,搜索引擎的许多核心技术已不是孤立的存在,也可以称为“不是秘密的秘密”——方向清晰明了,实现起来却需要深厚的积累、执着的投入,并且充满艰辛和风险。

回到“寻找应用”的用户需求话题上,“框计算”既是百度向搜索的未来继续迈进的重要一步,也可以看做是在互联网应用开发者和用户之间搭起了一座通畅的桥梁——即便是AppleAppStore这样封闭的平台,简单的分类、排序并已无法归纳以数十万计的应用,何况生态完全开放的互联网?

无论内容、数据、应用,也无论PC、智能手机还是未来形态各异的终端,互联网搜索始终是四海一家的解决之道。

盗墓笔记秦岭神树解析

鬼吹灯之怒晴湘西

鬼吹灯之巫峡棺山