核心提示:当前搜索结果相关性算法主要从词频、标题、网页内外链接以及词语之间的距离等角度出发,从概率上来讲,如果符合上述的要素,那么搜索结果差不多是相关的。可是严格来讲,如果理论本身不够精确的话,则实际情况的误差将会很大。举一个例子来说,如果一篇网页内外链接都与自身内容无关,这样这篇网页的相关度就降低了,哪怕这...
当前搜索结果相关性算法主要从词频、标题、网页内外链接以及词语之间的距离等角度出发,从概率上来讲,如果符合上述的要素,那么搜索结果差不多是相关的。可是严格来讲,如果理论本身不够精确的话,则实际情况的误差将会很大。举一个例子来说,如果一篇网页内外链接都与自身内容无关,这样这篇网页的相关度就降低了,哪怕这篇网页里的内容很有用,却可能不符合超链接分析算法的要求而排名过百。
如果从词语之间的距离来判断相关性,我认为这也不十分科学。我想再举一个例子,“太阳是风的原因。电脑辐射的危害很大。”和“电脑辐射容易导致失眠、健忘,原因是电脑辐射能损伤人的DNA。”
如果我的关键词是“电脑辐射 原因”,从词语之间的距离来看,无疑前者肯定会排名在前。后者才是真正相关的结果,却排在了后面“。同理,我们现在假设“太阳是风的原因。”这句话是一个段落,“电脑辐射的危害很大”是接下来的段落;“电脑辐射容易导致失眠、健忘,原因是电脑辐射能损伤人的DNA。”也是一个段落,从词语之间的距离来看,前者又排在了前面。
我的解决办法是这样的:
如果两个词语处在同一句话中,不管两个词语之间的距离有多大,相关性要比距离很近但不是同在一句话内的搜索结果高。如果两个词语处在同一段落中,不管词语之间的距离有多大,相关性要比距离很近,但跨段落的搜索结果相关性高。
有的时候一篇网页的结构比较混乱,分不清段落或句子,这个时候就可以考虑通过文字之间的距离来确定相关性。另外,如果用户的查询词是一个词的时候,词频或标题可能是判断相关性最佳的方法。