| “与Google全球同期相比, Google中文搜索质量的提升是全球平均水平的四倍。”谈及2006年谷歌对Google所做的贡献,刘骏显得有些激动,“Google中文搜索的质量比之半年前有了质的飞跃”。2006年7月,刘骏加入中国Google,并出任中文搜索技术总监一职,“做最聪明的搜索引擎”是刘骏团队拼命的目标,而这一步如何去实现,又关系到下一代网页搜索这个有趣话题。1月29日,落坐宽敞明亮的Google中国办公大楼,刘骏的畅想面对IT168等媒体娓娓道来。
 |
| Google(谷歌)研发总监刘骏 |
什么是最好的搜索引擎?
究竟什么是最好的搜索引擎?Google创始人拉里.佩奇曾说过一句话:最好的搜索引擎就是准确地提供给用户他们所需要的信息。刘骏对此感触颇多,“急用户所急, 思用户所需”既可奉为至理名言,也可看似乏味的空谈,“我认为现在世界上还没有一个真正的搜索引擎可以做到这一点,换句话说,现在我们要做的东西还非常多,有些人认为现在我们的搜索引擎已经差不多了,已经足够用了,事实上如果你真正了解用户的需求,真正回答用户提的问题的目标还有很大的距离。”
时效性与相关性是衡量搜索质量的两个关键因素,为了验证时效性,Google工作人员当场输入了“贞观长歌”(央视正热播的电视连续剧)及“许玮伦”(最近遭遇车祸的香港艺人)等较新出现的热点词汇,搜索结果清晰准确。 时效性还体现在用户在不同时期的关注需求上,目前Google的新闻OneBox做得相当出色。当用户在www.google.cn的中文界面上输入一个跟当前新闻相关的搜索词时,Google会根据实时的Google查询日志和其它信息,做出判断,产生新闻OneBox,用户可以通过这个OneBox查看最新的新闻。
对于这一成果,刘骏最为骄傲的实例是台湾地震。“大家知道前一段时间地震把台湾的光缆震断了,如果那一天你搜索‘地震’的话,你会第一时间搜索到这一信息。”而在当时,有关大面积断网与台湾光缆震断相关的的网络信息相当少,Google完全在不依赖用户关键字提交,在没有任何人工干预的前提下,能够把最具时效性的结果在第一位提供出来,这样的算法的确值得称道。 “但是过了两三个星期之后再搜索‘地震’信息就不一样了,当时上海有一个谣言,说上海地震会有海啸之类的,这时你再搜索‘地震’的话,你会看到上海某某部门出来辟谣,说上海没有海啸。但是过了几个星期台湾又地震了,当时Google的‘地震’搜索结果就是台湾的线路又被震断了。”
 |
| Google沙龙活动现场 |
Google的这一算法究竟是如何实现的?毫无疑问,问题的关键是找到一套衡量有效性和相关度的量化标准。很幸运,这一难题被Google最早的一名中国工程师攻克了,“这套指标体系放上去了之后,指标质量提高了,说明这个做法是正确的。”
在保证时效性、相关度的同时,刘骏认为对搜索结果的考核还有一个指标:多样性。在Google搜索中,并没有把内容相似的条目毫无节制的铺张,而是用“类似网页”轻松化解,这样在相同的版面可以呈现出更多内容。这样做的优点显而易见,用户可以在最短的时间内找到所需的搜索结果。相反,对于某些人注重关键字搜索数量的文字游戏,刘骏认为那是一种对搜索的误读,用户在搜索结果中查找的忍耐力极为有限,几页之后的搜索结果其实已经失去了实用的意义。
 |
| 用Google检索WTO时结果的多样性 |
对于数字迷信的破除,电脑虎严重苟同,当人们津津乐道于收录网页数量达到多少亿的数量虚词,却面对海量信息无法找到真正所需的内容时,扑面的失望会冲淡多少虚妄的假象。 |