用户名: 密 码:
您现在的位置:首页 >> SEO技巧 >> 内容

爬虫抓取策略介绍,SEO高端技巧

时间:2010/7/18 20:53:54 点击:7720

  核心提示:Google去年在其官方博客声称已经发现了一万亿的独立URL,面对如此庞大的Web,,分布式的增量爬虫系统是相当的复杂。Google爬虫为了节省带宽,采用了Crawl Caching Proxy(缓存代理),避免Google多种爬虫(GoogleBot,GoogleBlogsearch Bot,Go...

 

      Google去年在其官方博客声称已经发现了一万亿的独立URL,面对如此庞大的Web,,分布式的增量爬虫系统是相当的复杂。Google爬虫为了节省带宽,采用了Crawl Caching Proxy(缓存代理),避免Google多种爬虫(GoogleBot,GoogleBlogsearch Bot,GoogleNews Bot等等)重复爬取同一页面。现在网上复制内容或者同一内容不同表现形式导致大量重复内容,爬虫面临的问题就是减少大量重复内容的抓取。

      由于爬虫系统相当复杂,这里主要介绍爬虫的一些爬取策略。对于搜索引擎而言,爬虫最重要的效率,一个重要的评价标准就是爬虫开销,Dasgupta等人将爬虫开销定义为:

爬虫开销=重复抓取的老页面数/发掘新页面数

看得出来,以最快的速度抓取最重要的、最新的页面,才是最好的爬虫策略。网上各种爬虫介绍文章可能都提到过爬取策略,如广度优先、最佳优先,或者还有线性以及最新的OPIC(On-Line Page Importance Computation)策略等等,其实现在基本上采用混合策略,对每个页面有一个优先级,Google爬虫对页面的爬取优先级考虑以下几点因素:

     1.查询驱动的爬取,对于一个查询,页面与查询的相关性高低决定了页面被爬取的优先级,但是由于在页面未被爬取前无法判定相关性,只能通过已爬取的其他页面来判断未爬取的页面的相关性,如指向该页面的链接、锚文本等来决定。这个爬取策略可能特别适合现在新闻之类的实时搜索,当突发性的用户热门查询发生时,爬虫可能赋予一些包含相关内容页面一个很高的优先级,快速爬取和更新热门内容页面,可以快速满足用户的需求。

     2. 反向链接数,一个面被很多页面或者被重要页面指向,这个页面被爬取的优先级越高,这个也适合新闻之类的实时内容,一些热门内容被快速复制,产生大量的反向链接或者被大型门户网站指向,这些页面可能被赋予很高的爬取权重。

     3.PR值,一个页面的PR,与上面的纯粹的反向链接计数不同,这个全局考虑页面的重要性,当然这个因素的更新的时间比较长。

     4.前向链接数,也就是出链数量,这个页面出链数量很大,指向大量页面,有可能获得很多新页面的链接,所以也被赋予很高的优先级。

   5.URL:路径深度是一个考虑的因素,一般重要页面的路径深度都比较浅,爬取的优先级要高。

 以上只是其中的一些因素,跟搜索引擎排名一样,一个有效爬虫系统必须考虑多个因素才能合理抓取,提高爬取效率。新的策略也将继续出现,如RPR(Reverse Pagerank),也叫反向PR(逆PR),就是将整个互联网的链接方向倒过来,出链变成入链,计算出来的PR值,RPR越高爬取优先级越高。


SEO讨论

       从上面的因素可以看出来,尽量让网站呈一种扁平的层次结构,构建一些重要资源列表页面,方便爬虫快速抓取一些最新内容,减少搜索引擎的爬取开销,还可以及时的为一些热门内容及时增加有效内链,提高热门内容的排名,这对大型网站这一点特别重要。避免生成无限URL的爬虫陷阱以及针对爬虫的Cloaking作弊。不要产生垃圾页面,会影响到所指向页面的抓取。当然要想让搜索引擎频繁光顾你的网站还是要提高网站的权重,提高内容质量。

     这里介绍一下爬取和索引的关系,爬取只是索引的必要条件,不是充分条件,没有被搜索引擎索引并不代表没有被爬虫爬取,没有索引可能是你的内容不过关,如重复内容、含有垃圾内容等,也可能你的网站还在Google沙盒期,或者你的网站被惩罚了,建议查看网站日志来查看是否被爬虫爬取。 

      模拟爬虫的工具也很多,如著名的Xenu,Google管理员工具的模拟爬虫功能等, 对于新的网站和页面以及js,flash和frame内容的抓取、sitemap和robots.txt等爬虫的控制方法可以参考Google网站管理员指南或者百度站长帮助。

 

 

Lucene.NET开发基础

基于Lucene的最流行的分词法(石青SEO整理)

如何高亮显示关键词

 

 

文章来源:http://www.xinxilong.com

作者:不详 来源:网络
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 论坛群发大师(www.xinxilong.com) © 2008 版权所有 All Rights Resverved.
  • Email:4984672[at]qq.com 沪ICP备12025887号-1
  • Powered by 论坛群发大师