如何通过IIS日志来跟踪分析搜索引擎蜘蛛

如何通过IIS日志来跟踪分析搜索引擎蜘蛛,第1张

平时我们经常说的多的就是通过分析百度相关域和收录、yahoo反向链接以及PR等等来分析我们网站的权重和网站的好坏。如果是我们的网站出了什么问题,我们做站长的最关心的也就是我们的网站的收录、相关域以及反向链接的变化,在这里我要和大家分享的是IIS日志的分析,下面简单的由我来分析下。

IIs(internet information services)日志是我们每个网站都具有的功能,只是我们大部分的站长都不怎么去关心它,还有部分站长用的空间或许没有IIs日志功能,这就需要你去找你的服务器提供商来帮你开通IIS日志功能,只有我们的空间有了这样一个功能后,蜘蛛来到我们的网站了与服务器的对话才会被记录到IIs日志里面,我们通过分析IIS日志就可以知道蜘蛛来我们网站做了什么,爬取和收录了我们的哪些页面,包括蜘蛛来我们网站的爬取次数和地址,哪些是蜘蛛喜欢爬取的,哪些是蜘蛛不喜欢的或者说是无法爬取到的页面,知道这些了我们就能针对蜘蛛爬取的动向来更好的分析和优化我们的网站页面,更清楚我们网站在搜索引擎的动态,那么我们怎么去分析IIS日志

第二,查看蜘蛛的IP地址,这个没多大用处,我们知道就行,IP地址就像平时我们用手机给你的朋友打电话的时候一样,你给你的朋友打电话的同时,你朋友的手机上就会显示你的手机号码是同一个道理,蜘蛛也是一样,它来到了你的网站就会用一个IP来显示它的“手机号码”。

200:页面访问成功但不一定会收录下载

301:资源永久重定向

302:资源临时重定向

304:页面未更新,蜘蛛来到了我们的这个页面后发现这个页面我以前来过,这次再来的时候发现这人页面里面的内容完全是和第一次来的时候一样的,IIS日志里面就会返回大量的304。

404:访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。

查看百度蜘蛛爬行记录的方法:

第一,前往空间服务器,下载网站日志。

第二,打开网站日志文件,搜索:Baiduspider。

百度(Baidu)爬虫名称:Baiduspider

第三,鉴别百度蜘蛛的真伪。

由于很多站长工具会模拟百度蜘蛛的名称来爬抓网站,因此,需要我们鉴别百度蜘蛛的真伪。

鉴别方法:

开始—运行—输入 cmd ,用命令nslookup +ip

只要是百度的IP段,代码中会有出现:name:baiduspider,如果没有出现,那就不说不是真的百度IP段

第四,可以通过日志工具来查看网站日志。例如:光年日志。

百度用于抓取网页的程序叫做Baiduspider - 百度蜘蛛,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的HTTP状态码。

查看日志的方式:

过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。

日志内容如下:

6113516822 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1html HTTP/11" 200 8450 "-" "Baiduspider+(+http://wwwbaiducom/search/spiderhtm)"

分析:

/bbs/thread-7303-1-1html 代表,抓取/bbs/thread-7303-1-1html 这个页面。

200 代表成功抓取。

8450 代表抓取了8450个字节。

如果你的日志里格式不是如此,则代表日志格式设置不同。

很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。

抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。

让蜘蛛经常光临

文章需要经常更新

蜘蛛就和一个人一样,想要吸引它,必须要有最新鲜的内容。如果都是一些老旧的内容,谁还会还看呢?每天或者数天一篇新的原创文章能够很好地勾引蜘蛛,同时也能够让更多的访客来你的网站上留下足迹。

页面简洁,保证打开速度

一个干净、简洁的页面能够比一个满是广告、无用信息的页面更页面更能够吸引用户,这对于蜘蛛也是。越少的需要抓取的内容,越快的打开速度,能够保证蜘蛛的高效率抓取,蜘蛛来访的频率也会越高。

内部链接结构良好,无死链和大量重复链

蜘蛛的爬行除了抓取页面,还通过页面上的链接进行“行走”。如果正好步入了一个死链,正如同步入深渊一般,蜘蛛可能需要一段时间之后才能继续抓取。同样的,如果有大量的重复链接,一直爬到这个页面上去,蜘蛛就会认为这个页面没有太大的意义,甚至会停止爬行。

为蜘蛛指路——建设网站地图

网站地图就好比是一个指向标,唯有清晰明了的指向标才能指引蜘蛛的去向。方便快捷的道路也会勾引来更多的蜘蛛。

每个页面都有完整的meta标签

拥有完整的meta标签可以更快地告诉蜘蛛这个页面里有什么,提高蜘蛛的抓取效率。这主要包括keywords(关键词)和description(描述),如果想让meta更完美,可以加上generator(作者)、robots(蜘蛛)、copyright(版权)等等。

确保服务器能够正常运作,避免宕机

在建网站之前,就要考虑好选择一个稳定的服务器,宁可多花点钱,也不要贪小便宜。稳定的运作能够使蜘蛛更好地进行抓取并不中断,还能容纳下更多勾引来的蜘蛛。

确保服务器返回信息正常

千万不要限制服务器返回信息,这对于蜘蛛来说很重要。一旦无法获取到正确的返回信息,蜘蛛将会迷失方向。

监测蜘蛛的爬行

可以利用日志知道蜘蛛正在抓取哪些页面,知己知彼,方能根据蜘蛛的喜好对页面进行调整,以勾引来更多的蜘蛛。

利用Google管理员工具查看爬行速度

可以利用Google专门为站长提供的管理员工具对蜘蛛的爬行速度进行查看,合理分配资源,以达到更高的抓取速度和勾引更多的蜘蛛。

增加网站的外链

这一条和第三点相类似,因为蜘蛛的通过链接爬行。别的网站上也有蜘蛛,就可以想办法将蜘蛛勾引过来,这办法就是在网站上发外链。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 如何通过IIS日志来跟踪分析搜索引擎蜘蛛

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情