一个网站爬下来的 html 代码居然和页面不一样

这两天在写爬虫发现一个奇怪的问题
http://sinacn.weibodangan.com/user/5208916795/?max_id=3900715476612486

这个页面进去应该是

对不起，你所查看的微博用户暂时找不到，返回上一页，或者去看看其他微博。 error_code:0

上面这个是正确的

但是我用 php 的 file_get_content 获取的页面则是

用户 4813861174 转发的微博等等

这个是该网站的防爬策略吗？

----------------------- 以下是精选回复-----------------------

答:你进去看的的是 ajax 生成的
你的爬虫可能只抓取了原始页面
答:爬虫爬得是原始页面,你看到的是解析过的.
答:你先看看请求是什么而不是看 url 是什么
答:你的爬虫不会解析执行 JS ，修改 DOM 数据

DABAN RP主题是一个优秀的主题，极致后台体验，无插件，集成会员系统
网站模板库 » 一个网站爬下来的 html 代码居然和页面不一样

分享到：