网站模板库
  • 首页
  • web前端工具
    • HTML/JS转换工具
    • JS/HTML格式化工具
    • 字母/英文大小写转换工具
    • robots.txt文件生成工具
    • Js压缩/格式化工具
    • Css在线压缩工具_代码格式化
  • 关于我们
    • 免责声明
    • 联系我们
    • 广告服务
    • 服务项目
    • 关于我们
    • 网站轮播
    • 公告
    • 成都优优科技专用
    • 按行业分类
  • web学院
    • 服务器教程
    • 学习资料
      • 基础书籍
      • 交互书籍
      • 入门教程
      • 特效分类
    • 案例分享
    • web资讯
  • 网页特效
    • 图片特效
    • 导航特效
    • 滑动按钮
    • 表单特效
    • 文字特效
    • 弹窗特效
    • 其他特效
  • 织梦模板
    • 科技/电子/数码/通信
    • 文化/艺术/广告/传媒
    • 装修/设计/家居/家具
    • 基建/施工/地产/物业
    • 餐饮/酒店/旅游/票务
    • 食品/果蔬/饮料/日用
    • 服饰/珠宝/礼品/玩具
    • 摄影/婚庆/家政/生活
    • 运动/健身/体育/器材
    • 学校/教育/培训/科研
    • 美容/保健/医院/医疗
    • 金融/财税/咨询/法律
    • 政府/组织/集团/协会
    • 汽车/物流/交通/搬运
    • 机械/设备/制造/仪器
    • 化工/环保/能源/材料
    • 农业/畜牧/养殖/宠物
    • 其他模版
    • IT/软件/信息/互联网
  • 手机模板
    • 手机APP模板
    • 微信小程序模板
    • wap
  • 网站模板
    • joomla模板
    • Drupal模板
    • z-blog模板
    • EyouCms模板
    • Bootstrap模板
    • 帝国cms模板
    • CmsEasy模板
    • MetInfo模板
    • 购物商城模板
      • Shopify主题
      • PrestaShop主题
    • 后台模板
    • 纯HTML模板
    • ecshop模板
    • phpwind模板
    • pbootcms模板
    • phpcms模板
    • wordpress模板
    • discuz模板
  • 教程
    • 织梦教程
    • Discuz教程
    • WordPress教程
    • Phpcms教程
    • Phpwind教程
    • ECShop教程
    • Joomla教程
    • Drupal教程
    • zblog教程
    • EyouCMS教程
    • 帝国cms教程
    • MetInfo教程
    • CmsEasy教程
登录
当前位置:网站模板库 > 教程 > 织梦教程 > 请教织梦dedecms采集相关问题
商业源码 织梦教程 2023-09-19 1:28:01

请教织梦dedecms采集相关问题

请教织梦dedecms采集相关问题,第1张

本DEDECMS仿站及采集教程全集,荟集了网上诸多名站收费VIP教程,涵盖面广,讲解详细,从初级入门到精通,学习并不断实践,即可仿站、建站、调站,实现理想站点效果或完成您的创业梦想。

教程包括:

1、dedecms入门视频教程;

2、dedecms仿站中级视频教程;

3、dedecms建站中级视频教程;

4、dedecms采集教程及综合学习资料汇编;

5、A5 SEO教程,对宣传和推广网站很有帮助。

6、赠送网上流行的部分名站模板,包括7Y7女性网、爱丽女性等;

7、div+css全集

本教程适用于:

1、网站制作、网站建设技术人员,可轻松为别人(或企业)建站或仿站;实现个人创业;确保您以最小的投资,取得最大的回报;

2、CMS爱好者。DEDECMS是国内首家开源管理系统,其自由的扩展功能和灵活的管理体系可让您有了发挥自己能力的广阔天地,拓展出更多的应用,学到更多CMS的精髓。官方宗旨:在织梦团队未来的构想中,它以后将会具有更大的灵活性和稳定的性能!给站长十足信心和动力~~

3、各类站长和互联网从业人员。。通过基础学习、领会教程,您可轻松建立或仿制一个或N个视觉冲击强烈、内容丰富的网站,能安装、调试、管理买来的程序或者模板,熟悉宣传优化推广手段,完成自己创业梦想的蜕变。

命名采集节点名称,填写引用网址,引用网址就是你需要采集的网址所在的网址,网址匹配区域就是所在网址的区域。我举个例子

比如在某某网页上有一堆网址列表,而你需要的就是采集这些网址,那你就只要查看它的源代码,找到开始代码和

结束代码就可以了。内容页面配置也是同理,你找到你需要采集的网页,查看他的源代码

,你需要从哪个标签开始采集

就些那个标签

中间是内容

然后那个标签结束

就填写结束标签。举例

我从目标网页的<body>标签开始采集

,采集到</body>标签结束

那么

我的采集内容匹配

就是

<body>[内容]</body>过滤规则就是

你需要过滤特定的内容

然后在过滤规则填上就行。

更新 622

来源,以及作者跟原文章有关,原文章没有写就不会有的。

这个采集成功率大概有95%,采集不了就只能手动添加了,不是很多。

BASE64:e2RlZGU6bGlzdGNvbmZpZ30NCntkZWRlOm5vdGVpbmZvIG5vdGVuYW1lPSJiYrLJvK8iIGNoYW5uZWxpZD0iMSIgbWFjdGh0eXBlPSJzdHJpbmciDQoJcmVmdXJsPSJodHRwOi8vIiBzb3VyY2VsYW5nPSJ1dGYtOCIgY29zb3J0PSJhc2MiDQogIGlzcmVmPSJubyIgZXhwdGltZT0iMTAiIHVzZW1vcmU9IjAiIC99DQp7ZGVkZTpsaXN0cnVsZSBzb3VyY2V0eXBlPSJiYXRjaCIgcnNzdXJsPSJodHRwOi8vIiByZWd4dXJsPSJodHRwOi8vd3d3LmJhYnl0cmVlLmNvbS9sZWFybi94dWVsaW5ncWlhbi96YW9xaWppYW95dS8oKikiDQpzdGFydGlkPSIwIiBlbmRpZD0iOTkiIGFkZHY9IjEiIHVybHJ1bGU9ImFyZWEiIG11c3RoYXM9IiINCiBub3RoYXM9IiIgbGlzdHBpYz0iMSIgdXNlbW9yZT0iMCJ9DQoJe2RlZGU6YWRkdXJsc317L2RlZGU6YWRkdXJsc30NCgl7ZGVkZTpiYXRjaHJ1bGV9ey9kZWRlOmJhdGNocnVsZX0NCgl7ZGVkZTpyZWd4cnVsZX17L2RlZGU6cmVneHJ1bGV9DQoJe2RlZGU6YXJlYXN0YXJ0fTx1bCBjbGFzcz0idGV4dExpc3QgdGV4dExpc3RCaWciPnsvZGVkZTphcmVhc3RhcnR9DQoJe2RlZGU6YXJlYWVuZH08L3VsPnsvZGVkZTphcmVhZW5kfQ0Key9kZWRlOmxpc3RydWxlfQ0KDQp7L2RlZGU6bGlzdGNvbmZpZ30NCg0Ke2RlZGU6aXRlbWNvbmZpZ30NCntkZWRlOnNwcGFnZSBzcHR5cGU9J2Z1bGwnfXsvZGVkZTpzcHBhZ2V9DQp7ZGVkZTpwcmV2aWV3dXJsfWh0dHA6Ly93d3cuYmFieXRyZWUuY29tL2xlYXJuL2FydGljbGUvNjgwey9kZWRlOnByZXZpZXd1cmx9DQp7ZGVkZTprZXl3b3JkdHJpbX17L2RlZGU6a2V5d29yZHRyaW19DQp7ZGVkZTpkZXNjcmlwdGlvbnRyaW19ey9kZWRlOmRlc2NyaXB0aW9udHJpbX0NCntkZWRlOml0ZW0gZmllbGQ9J3RpdGxlJyB2YWx1ZT0nJyBpc3VuaXQ9JycgaXNkb3duPScnfQ0KICAge2RlZGU6bWF0Y2h9PHRpdGxlPlvE2sjdXV9f0/22+c7E1cJfsaaxpsr3PC90aXRsZT57L2RlZGU6bWF0Y2h9DQogICANCiAgIHtkZWRlOmZ1bmN0aW9ufXsvZGVkZTpmdW5jdGlvbn0NCnsvZGVkZTppdGVtfXtkZWRlOml0ZW0gZmllbGQ9J3dyaXRlcicgdmFsdWU9JycgaXN1bml0PScnIGlzZG93bj0nJ30NCiAgIHtkZWRlOm1hdGNofXsvZGVkZTptYXRjaH0NCiAgIA0KICAge2RlZGU6ZnVuY3Rpb259ey9kZWRlOmZ1bmN0aW9ufQ0Key9kZWRlOml0ZW19e2RlZGU6aXRlbSBmaWVsZD0nc291cmNlJyB2YWx1ZT0nJyBpc3VuaXQ9JycgaXNkb3duPScnfQ0KICAge2RlZGU6bWF0Y2h9ey9kZWRlOm1hdGNofQ0KICAgDQogICB7ZGVkZTpmdW5jdGlvbn17L2RlZGU6ZnVuY3Rpb259DQp7L2RlZGU6aXRlbX17ZGVkZTppdGVtIGZpZWxkPSdwdWJkYXRlJyB2YWx1ZT0nJyBpc3VuaXQ9JycgaXNkb3duPScnfQ0KICAge2RlZGU6bWF0Y2h9ey9kZWRlOm1hdGNofQ0KICAgDQogICB7ZGVkZTpmdW5jdGlvbn17L2RlZGU6ZnVuY3Rpb259DQp7L2RlZGU6aXRlbX17ZGVkZTppdGVtIGZpZWxkPSdib2R5JyB2YWx1ZT0nJyBpc3VuaXQ9JzEnIGlzZG93bj0nMSd9DQogICB7ZGVkZTptYXRjaH08ZGl2IGNsYXNzPSJLX2NvbnRlbnQiPlvE2sjdXTxkaXYgY2xhc3M9J2xvb2tQYWdlanVtcCcgc3R5bGU9InRleHQtYWxpZ246Y2VudGVyOyI+ey9kZWRlOm1hdGNofQ0KICAge2RlZGU6dHJpbSByZXBsYWNlPSIifTxoMT48c3Bhbj4oLiopPC9oMT57L2RlZGU6dHJpbX0NCntkZWRlOnRyaW0gcmVwbGFjZT0iIn08ZGl2IGNsYXNzPSJ0aW1lS2V5d29yZCIgYWxpZ249ImNlbnRlciIgc3R5bGU9ImNvbG9yOmdyYXk7IiA+KC4qKTwvZGl2PnsvZGVkZTp0cmltfQ0Ke2RlZGU6dHJpbSByZXBsYWNlPSIifTxkaXYoW14uXSopPnsvZGVkZTp0cmltfQ0Ke2RlZGU6dHJpbSByZXBsYWNlPSIifTwvZGl2PnsvZGVkZTp0cmltfQ0Ke2RlZGU6dHJpbSByZXBsYWNlPSIifTxhKFtePl0qKT4oLiopPC9hPnsvZGVkZTp0cmltfQ0Ke2RlZGU6dHJpbSByZXBsYWNlPSIifX08cD57L2RlZGU6dHJpbX0NCiAgIHtkZWRlOmZ1bmN0aW9ufQ0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCg0KDQoNCnsvZGVkZTpmdW5jdGlvbn0NCnsvZGVkZTppdGVtfQ0Key9kZWRlOml0ZW1jb25maWd9:END

1、织梦CMS文章采集

  新建一个文章采集节点,后台——采集——采集节点管理——增加新节点,选择内容模型为普通文章。

  设置节点基本信息。目标源码同上篇文章所说,通过查看目标网站源代码后设置,区域匹配模式默认字符串,只有在字符串无法确定区域的时候才用正则表达式,不过一般都用不上。最后就是织梦cms采集的特点之一防盗链模式,如果目标网站有防盗链功能则开启次功能可以成功采集,但是会降低采集速度。次测试目标网站没防盗链功能,所以不开启。

  列表网站获取规则。同上篇文章分析,列表网址是有规律的可批量生成。这里要说下dedecms的强大之处,不仅获取列表网址的方式能灵活组合,而且如果目标网站整站使用的都是同一个模板,就可以启用“多栏目通配(#)”功能,通过设置后一个采集规则就可以采集整站并发布不同栏目了,而不需要一个栏目对应一个规则。(此功能小编会另外单独写一篇教程)

  文章网址匹配规则。查看目标列表页源代码,设置要采集文章网址区域的开始和结束的html,接下来又是dedecms特点之一,如果采集网址页面链接有可直接设置采集为缩略图,非常方便。对区域网址进行再次筛选功能也有特色,除支持正则表达式外还声明了“必须包含”和“不能包含”的优先级,本篇体验目标站无干扰网址,所以留空。

  保存并测试,系统会应用前面的设置测试采集网址,完整无误后保存信息并进入下一步内容采集设置。

 网页内容获取规则。系统会默认一个采集url为预览网址,另外内容分页导航所在的区域匹配规则也很灵活,除了和phpcms一样有全“部列出的分页列表模式”、“上下页形式或不完整的分页列表模式”外,还多了一个“分页列表规则”。

  各字段内容采集,dedecms的内容匹配规则和phpcms一样:“起始无重复HTML[内容]结尾无重复HTML”,[内容]即为所采内容。过滤规则是{dede:trim replace=""}规则{/dede:trim},多个规则的话一个一行,如果要替换成指定的值,则只要在replace=""的引号里设置即可。

  其中,内容摘要、关键字、缩略图系统会用正则进行自动匹配,我们只需设置过滤内容即可。其余字段分别设置匹配规则和过滤规则,系统同样自带了几个常用的过滤规则,但是点击“常用规则”后为弹出小窗口模式,稍微有点不方便。针对本测试的标题采集,以下两种方式都是可以的,如图:

  文章作者、文章来源和发布时间字段一样采集,但是此版本dedecms在这几个字段下没有“自定义处理接口”了,如果有的话会稍显灵活,例如设置固定值可直接用“@me="固定值"”实现。现在不能用自定义处理接口设定固定值,也没有字段值设置,只能通过采集网页某一固定值然后用替换。如图:

  dedecms的文章内容采集非常强大,除了匹配规则和过滤规则,还有个“自定义处理接口”。如果你有php基础的话,可以通过此功能对采集结果@me进行各种处理,强大到不行啊。以后小编会专门发一篇此功能的讲解文章。最后,不能直接在采集管理处新增采集字段,只能在对应内容模型管理中增加字段,采集管理会自动增加。如小编在“普通文章”内容模型那增加了一个“chinaz字段”,则采集设置中自动增了一个“chinaz字段”项目。

  保存并测试,查看列表测试信息和网页规则测试,检查是否正确,无误后确定并开始采集。进入采集指定节点设置页面,因为小编之前有测试一遍,所以有60个历史种子网址,即小编之前已经采集了60个网址,另外还有几个选项大家按需求选择。

  点开始采集网页,出现此采集提示信息显示采集进度,不知道是小编人品不好还是dede采集本身缺点,经常会浏览器没反应,采集停止在那,只有手动点击了才会继续。

采集完成后点右上角的“导出数据”,然后选择导出栏目,如果你在前面启用了“多栏目通配(#)”并指定了栏目ID,则要勾选此处的“批量采集选项”,其余选项根据自己需求选择,然后确定。如果勾选了“完成后自动生成导入内容HTML”则会在导入完后自动更新网站,否则就要先手动去生成。

规则 网址 内容 字段 文章
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 请教织梦dedecms采集相关问题

商业源码 钻石

分享到:
上一篇
学网页设计就业前景怎么样
下一篇
Dedecms怎么重新安装?(在删除了已安装文件及创建的数据库情况下)

相关推荐

如何用PHP往数据库插入时间

如何用PHP往数据库插入时间

139邮箱里的高级设置发送服务器端口错误,如何得到正确端口号码

139邮箱里的高级设置发送服务器端口错误,如何得到正确端口号码

怎样自己创建一个网站?

怎样自己创建一个网站?

Unity3d培训都培训哪些内容

Unity3d培训都培训哪些内容

0条评论

发表评论 取消回复

要发表评论,您必须先登录。

提供最优质的资源集合

立即查看 了解详情
网站模板库

主题/付费下载/查看/余额管理/自定义积分,集成支付,卡密,推广奖励等。

本站导航
  • 链接标题
友情链接
  • 链接标题
快速搜索
本站由钛宇宙强力驱动
友情链接:
    商业源码网蜀ICP备2023005044号
    网站模板库
    • 登录
    • 注册
    网站模板库
    • 首页
    • web前端工具►
      • HTML/JS转换工具
      • JS/HTML格式化工具
      • 字母/英文大小写转换工具
      • robots.txt文件生成工具
      • Js压缩/格式化工具
      • Css在线压缩工具_代码格式化
    • 关于我们►
      • 免责声明
      • 联系我们
      • 广告服务
      • 服务项目
      • 关于我们
      • 网站轮播
      • 公告
      • 成都优优科技专用
      • 按行业分类
    • web学院►
      • 服务器教程
      • 学习资料►
        • 基础书籍
        • 交互书籍
        • 入门教程
        • 特效分类
      • 案例分享
      • web资讯
    • 网页特效►
      • 图片特效
      • 导航特效
      • 滑动按钮
      • 表单特效
      • 文字特效
      • 弹窗特效
      • 其他特效
    • 织梦模板►
      • 科技/电子/数码/通信
      • 文化/艺术/广告/传媒
      • 装修/设计/家居/家具
      • 基建/施工/地产/物业
      • 餐饮/酒店/旅游/票务
      • 食品/果蔬/饮料/日用
      • 服饰/珠宝/礼品/玩具
      • 摄影/婚庆/家政/生活
      • 运动/健身/体育/器材
      • 学校/教育/培训/科研
      • 美容/保健/医院/医疗
      • 金融/财税/咨询/法律
      • 政府/组织/集团/协会
      • 汽车/物流/交通/搬运
      • 机械/设备/制造/仪器
      • 化工/环保/能源/材料
      • 农业/畜牧/养殖/宠物
      • 其他模版
      • IT/软件/信息/互联网
    • 手机模板►
      • 手机APP模板
      • 微信小程序模板
      • wap
    • 网站模板►
      • joomla模板
      • Drupal模板
      • z-blog模板
      • EyouCms模板
      • Bootstrap模板
      • 帝国cms模板
      • CmsEasy模板
      • MetInfo模板
      • 购物商城模板►
        • Shopify主题
        • PrestaShop主题
      • 后台模板
      • 纯HTML模板
      • ecshop模板
      • phpwind模板
      • pbootcms模板
      • phpcms模板
      • wordpress模板
      • discuz模板
    • 教程►
      • 织梦教程
      • Discuz教程
      • WordPress教程
      • Phpcms教程
      • Phpwind教程
      • ECShop教程
      • Joomla教程
      • Drupal教程
      • zblog教程
      • EyouCMS教程
      • 帝国cms教程
      • MetInfo教程
      • CmsEasy教程

      弹窗标题

      这是一条网站公告,可在后台开启或关闭,可自定义背景颜色,标题,内容,用户首次打开关闭后不再重复弹出,此处可使用html标签...