爬虫,实时监控 900 家中国企业新闻动态!!!
开源一个项目 https://github.com/NolanZhao/news_feed
简介: 此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。
原理: 采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。
方法简单粗暴,没有摘取网页结构化数据,仅仅获取更新的链接和标题。优点:实时性可以保障
第一个版本,功能尚不完善,欢迎吐槽、贡献代码~
我的邮箱 z_nolan@126.com
加个图:
----------------------- 以下是精选回复-----------------------
答:谢谢分享
答:直接比较源码有些暴力吧, 至少是抽取出文章来比较, 甚至是比较 simhash 比较好一点
答:这么多新闻,看得过来吗?
答:怎么操作,链接失效
答:正好有需要学习这个 比心
答:感谢!
答:既然是开源我也就不好 BB 啥了,我只想说虽然是第一版既然开源了能不能搞的开箱即用。。。。。。各种错误,各种补丁给你打上才跑起来.....
答:厉害了,顶一个
答:怎么抓到的都是 N 久前的文章:?
0条评论