您现在的位置：首页 >> SEO技巧 >> 内容

处理相关性算法，需要要备忘的内容

时间：2009/11/9 11:51:27 点击：3525

　　核心提示：当前搜索结果相关性算法主要从词频、标题、网页内外链接以及词语之间的距离等角度出发，从概率上来讲，如果符合上述的要素，那么搜索结果差不多是相关的。可是严格来讲，如果理论本身不够精确的话，则实际情况的误差将会很大。举一个例子来说，如果一篇网页内外链接都与自身内容无关，这样这篇网页的相关度就降低了，哪怕这...

当前搜索结果相关性算法主要从词频、标题、网页内外链接以及词语之间的距离等角度出发，从概率上来讲，如果符合上述的要素，那么搜索结果差不多是相关的。可是严格来讲，如果理论本身不够精确的话，则实际情况的误差将会很大。举一个例子来说，如果一篇网页内外链接都与自身内容无关，这样这篇网页的相关度就降低了，哪怕这篇网页里的内容很有用，却可能不符合超链接分析算法的要求而排名过百。

如果从词语之间的距离来判断相关性，我认为这也不十分科学。我想再举一个例子，“太阳是风的原因。电脑辐射的危害很大。”和“电脑辐射容易导致失眠、健忘，原因是电脑辐射能损伤人的DNA。”

如果我的关键词是“电脑辐射原因”，从词语之间的距离来看，无疑前者肯定会排名在前。后者才是真正相关的结果，却排在了后面“。同理，我们现在假设“太阳是风的原因。”这句话是一个段落，“电脑辐射的危害很大”是接下来的段落；“电脑辐射容易导致失眠、健忘，原因是电脑辐射能损伤人的DNA。”也是一个段落，从词语之间的距离来看，前者又排在了前面。

我的解决办法是这样的：

如果两个词语处在同一句话中，不管两个词语之间的距离有多大，相关性要比距离很近但不是同在一句话内的搜索结果高。如果两个词语处在同一段落中，不管词语之间的距离有多大，相关性要比距离很近，但跨段落的搜索结果相关性高。

有的时候一篇网页的结构比较混乱，分不清段落或句子，这个时候就可以考虑通过文字之间的距离来确定相关性。另外，如果用户的查询词是一个词的时候，词频或标题可能是判断相关性最佳的方法。

文章来源：http://www.xinxilong.com

作者：不详　来源：网络

上一篇：google不感冒keyword meta了

下一篇：类似伪原创处理页面相似度的收录问题