用户名: 密 码:
您现在的位置:首页 >> SEO技巧 >> 内容

处理相关性算法,需要要备忘的内容

时间:2009/11/9 11:51:27 点击:3525

  核心提示:当前搜索结果相关性算法主要从词频、标题、网页内外链接以及词语之间的距离等角度出发,从概率上来讲,如果符合上述的要素,那么搜索结果差不多是相关的。可是严格来讲,如果理论本身不够精确的话,则实际情况的误差将会很大。举一个例子来说,如果一篇网页内外链接都与自身内容无关,这样这篇网页的相关度就降低了,哪怕这...

当前搜索结果相关性算法主要从词频、标题、网页内外链接以及词语之间的距离等角度出发,从概率上来讲,如果符合上述的要素,那么搜索结果差不多是相关的。可是严格来讲,如果理论本身不够精确的话,则实际情况的误差将会很大。举一个例子来说,如果一篇网页内外链接都与自身内容无关,这样这篇网页的相关度就降低了,哪怕这篇网页里的内容很有用,却可能不符合超链接分析算法的要求而排名过百。 

如果从词语之间的距离来判断相关性,我认为这也不十分科学。我想再举一个例子,“太阳是风的原因。电脑辐射的危害很大。”和“电脑辐射容易导致失眠、健忘,原因是电脑辐射能损伤人的DNA。” 

如果我的关键词是“电脑辐射 原因”,从词语之间的距离来看,无疑前者肯定会排名在前。后者才是真正相关的结果,却排在了后面“。同理,我们现在假设“太阳是风的原因。”这句话是一个段落,“电脑辐射的危害很大”是接下来的段落;“电脑辐射容易导致失眠、健忘,原因是电脑辐射能损伤人的DNA。”也是一个段落,从词语之间的距离来看,前者又排在了前面。 

我的解决办法是这样的: 

如果两个词语处在同一句话中,不管两个词语之间的距离有多大,相关性要比距离很近但不是同在一句话内的搜索结果高。如果两个词语处在同一段落中,不管词语之间的距离有多大,相关性要比距离很近,但跨段落的搜索结果相关性高。 

有的时候一篇网页的结构比较混乱,分不清段落或句子,这个时候就可以考虑通过文字之间的距离来确定相关性。另外,如果用户的查询词是一个词的时候,词频或标题可能是判断相关性最佳的方法。

文章来源:http://www.xinxilong.com

作者:不详 来源:网络
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 论坛群发大师(www.xinxilong.com) © 2008 版权所有 All Rights Resverved.
  • Email:4984672[at]qq.com 沪ICP备12025887号-1
  • Powered by 论坛群发大师