首页 - 新闻 - 北京 - 文网 - 体育 - 娱乐 - 文化 - 汽车 - 军事 - 数码 - 视频 - 直播 - 游戏 - 女性 - 邮箱 - 短信 - 博客 - 旅游 - 彩票
 
2005中文搜索引擎质量对比

http://www.qianlong.com/   2005-11-25 10:01:33
  据权威预测,未来 4年全球搜索市场每年将以高达 35%的增长速度快速成长,到 2007年全球搜索市场的整体规模将达到 70亿美元; 今后 3年内,我国搜索引擎市场的年增长率更是将达 60%至 70%。2004年我国搜索引擎市场达到了 8.8亿元, 2006年将达到 24亿元。目前搜索引擎已从一种单纯的IT技术上升为搜索力经济,有望成为继无线增值和游戏之后,互联网企业又一重要的利润增长点。因此,搜索引擎的质量也提到了前所未有的高度。

  2005年9月,
清华大学 IT 可用性实验室再次对中文搜索引擎进行了较为全面的对比研究。研究对象为Google、一搜(Yisou—雅虎中国提供、百度(Baidu)、中搜(Zhongsou)、爱问(iAsk—新浪提供)、搜狗(Sogou—搜狐提供)。

  搜索引擎质量主要指网页搜索质量评测,网页搜索是搜索引擎的基础与根本。搜索引擎质量评测包括标准搜索方式下检索结果相关性、网页覆盖率、死链率、作弊率、中文分词。

  相关性

  搜索引擎相关性是指用户输入的查询内容与搜索引擎提供的文件内容或相关网站资源之间的符合关系,同时也是搜索引擎的搜索结果符合用户需要内容的能力。搜索引擎的相关性关系着用户的搜索效率和满意程度,相关性好的搜索引擎可以节省用户的时间和网络资源,对于任何一个搜索引擎,相关性至关重要。

  本次相关性评估采用从真实的Log数据库中提取的检索词作为测评样本,由外部程序按照一定规则和程序进行评估,并对评估采用多种衡量参数进行相关性比较。


图1 相关性评分

  结论:

  评估数据显示,对于一般检索词,六家搜索引擎标准搜索方式下网页检索结果相关性不存在显著差异,Google、百度和中搜稍占优势;相应地,上述三家找到相关结果所需的时间相对较短。

  网页结果覆盖率

  网页覆盖率又称为索引库大小,指搜索引擎索引的网页数量。每个搜索引擎索引的网页具体数量评测中表现为相对值,对所有搜索引擎结果的覆盖率可以做对互联网公开数据覆盖的参考。为减少覆盖率受重复网页的影响,评测中用同一排重算法对结果集排重。

 
图2 网页覆盖率排重结果图(纵坐标是网页数量)

  结论:

  各组评测结果之间无明显差异。在动态网页覆盖率测评中Google、百度占优,全部网页覆盖率测评中Google、百度、中搜相对较好。

  网页死链率

  死链指搜索结果中指向已不存在(或无法访问)的互联网资源的链接。死链受时间、地域、网络状况等多种因素影响。


图3 平均死链率(3个词不达意表的平均值)

  结论:

  死链率测试受网络和服务器状态影响,死链与评测样本选择有关系但不明显。3个评测样本数据显示,死链率从低到高前3名分别是一搜、百度、搜狗,爱问相对于其他搜索引擎有差距。

  作弊率评估

  网页作弊率是指网页通过程序或人工的手段,非法地提升自己在搜索引擎中的排序,提高自身的点击率等非法获益行为。评测样本选取与相关性评测相同,抓取6个搜索引擎结果,汇总后多个评测者根据作弊评测标准对每个结果进行标记,统计结果中的作弊数据比率。


图4 作弊率统计结果

  结论:

  搜索结果作弊数据比率中搜最低,百度、爱问次之,这3家在作弊数据比率上与其他搜索引擎相比有一定优势。

  结果重复率

  重复是影响网页质量的一个重要因素。重复内容多不但影响用户感受,还很耗费系统资源,影响检索效率。本次重复率评测只做了Google、百度、中搜三家搜索引擎前5页重复率评测。评测样本选取方法与相关性评测相同,共160个评测样本,每页取10条结果,不包括付费数据。


图5 前5页总重复率

  结论:

  评测结果显示,百度的重复最低。在而重复数据中,转载重复占大多数,而转载主要又表现为新闻转载。

  中文分词

  中文分词,是指把输入计算机的汉语语句自动切分为词的序列的过程。特定情况下分词结果中也包括一些词组和词素。本次中文分词评估是针对搜索引擎将连续性的中文检索词序列进行切分的处理结果进行的评估。前几项评测为搜索引擎的常规评测,检索中得分词评测带有探索性质,测试点较多。本次中文分词测评分为两部分:中文分词总体测评和中文分词单项测评。


图6 中文分词综合测评结果

  说明:

  可接受指分词结果完全正确和部分正确,纵轴是可接受结果占全集的比率。

  结论:

  中文分词总体测评正确率统计,百度占优,中搜其次。用户可接受横向对比中,百度、中搜、Google相对较好。

  中文分词单项测评召回率/精确率统计结果显示,中外人名自动辨识仍然是搜索引擎中文分词部分的难点;而新鲜词汇的识别和区分方面,6家搜索引擎做得都很好。横向测评中,歧义字段分词部分,搜狗和中搜的正确率相对较高,Google和一搜需要进一步改进;中外人名识别部分,中搜,百度和爱问表现相对较好;中国地名识别部分,爱问和百度精确率较高,一搜需要改进。总体上,中文分词单项测评中,本地搜索引擎表现要占有较大优势。

  搜索引擎质量评估汇总


表1 网页覆盖率排得结果(6家搜索引擎url总数12234条)

  说明:

  每一项,最大值为100分,各搜索引擎相应值与最大值相除,结果为各家该项得分。(见表2、3)


表2 搜索引擎评测质量汇总


表3 搜索引擎评测质量汇总转换最大值归一表

  结论:

  本土搜索引擎在以网页搜索为代表的搜索引擎质量方面有较大突破。网页搜索质量方面本土搜索引擎百度和中搜技术进步明显,许多指标开始超过Google。百度在总体指标上已超过Google成为第一。本土搜索引擎的技术进步突出表现在相关性、网页覆盖率、反作弊、中文分词等方面。在中文分词技术上,本土搜索引擎有明显优势。

  中文搜索引擎领域的服务细分进一步深入。地图成为细分搜索的又一个热点。在Google提供英文BBS搜索几年后,中搜于今年推出了中文BBS搜索。搜索细分评测数据表示中搜MP3有较大优势。爱问MP3搜索与中搜MP3搜索后台数据相同。

  搜索引擎功能日益丰富,从服务功能对比看,海外搜索引擎对本土搜索需求变化不如本土搜索引擎敏感,服务功能不如本土搜索引擎丰富。

编辑: 张韧 来源: 计算机世界
我要说说   打印   推荐  
 
视点相关
v 美国网民搜索引擎使用量激增 势头直逼电邮 2005-11-23 09:14:18
v 清华搜索引擎报告预见雅虎中国舍门户投搜索 2005-11-17 14:02:09
v 雅虎CNNIC议搜索新行规 CNNIC,3721冰释前嫌? 2005-11-16 13:48:46
v 雅虎CNNIC议搜索新行规 CNNIC,3721冰释前嫌? 2005-11-16 12:54:12
v 互联网经济的车轮 搜索引擎开辟新天地(图) 2005-11-16 12:47:11
v 汪延要做搜索掌舵人? 引领搜索走向结果型 2005-11-16 09:20:47
v 搜索门户校园争才 李彦宏:人才有多少要多少 2005-11-15 09:26:11
v 超级搜索大赛"团体赛"正式上线 不设置参与门槛 2005-11-11 17:53:09
v 华裔语言学家乔鸿亮发明第三代网络搜索引擎 2005-10-27 10:13:26
v 研究机构预测:中国搜索市场将进入战国时代 2005-09-09 12:43:01
v 2005年互联网大会中搜陈沛谈下一代搜索引擎 2005-09-02 17:37:39
v IDG富达联想三大投资公司缘何巨额注资中搜? 2005-08-24 15:24:06
v 联想投资超过百万美金 是否被搜索热昏了头? 2005-08-24 15:11:28
v 慧聪宣布减持中搜30%股份 是昏棋还是妙招? 2005-08-22 17:31:14
v 搜索引擎掀起第三次网络浪潮 2005-08-11 10:51:31
v 有问必有答 搜索更智慧 新浪爱问挑战搜索格局 2005-07-05 07:59:00
v 法新社状告GOOGLE 分析者:可能导致搜索引擎受限 2005-03-24 10:12:30
v Google新动作不断 近日再推短消息搜索服务 2004-10-10 13:06:20
v 搜狐推出第三代搜索引擎 更加智能化人性化 2004-08-03 10:15:41
v 慧聪第三代搜索引擎 国内市场三年要达20亿 2003-11-10 14:57:20
v 千龙研究院梁春晓:搜索引擎的价值来源(上) 2003-09-03 14:35:26
我来说说 笔名: 发表标题:

  

搜索 
   
 

© 版权所有2000-2008,北京千龙新闻网络传播有限责任公司
未经千龙新闻网书面特别授权,请勿转载或建立镜像,违者依法必究

首席头条

盛大联手MOTO做网游 手机网游不惧实名?
  欧盟授权的"eu"域名注册管理中心发表声明宣布,怀疑网络服务商非法囤积“.eu”域名以牟取暴利,已申请冻结7.4万个".eu"域名,并对400家公司提起了诉讼。
    不论贫穷的非洲,还是保守的中东,都涌现了一大批因喜欢日本动漫而喜欢日本和日本人的孩子,这种印象正随着他们的成长而影响整个社会。
更多>>
传媒观察