10手机网址资源库

Wap学院

10移动导航地图
基本资料概要资料展示区
名称帝国cms采集图文教程(中)
分享会员kgw200x浏览次数2458
所属类别新手教程 [快速浏览]主页标签帝国cms采集图文 帝国cms采集教程 帝国cms采集 
内容简介上一讲我们介绍了帝国cms采集基本流程,那么我们这一讲介绍帝国cms如何采集内容分页。不少的同学在采集过程中,列表页和内容页都能可以很好地设定正则,但往往失败在内容分页正则上,主要是对内容分页正则不了解。
复制本页网址,与您QQ/MSN上的好友分享,就是您对邀您上网导航最大的支持!
免责申明:邀您上网导航(www.10.org.cn)所有资料展示完全免费,仅供您参考,网上资料使用须谨慎。如果您发现本网站所刊登资料不实或过期,请及时联系我们更新,谨代表10导航的网友们感谢您!
主要资料帝国cms采集图文教程(中)

※ ♀YОПРСТУФХЦⅤⅥⅦⅧⅨω

※ ♀YОПРСТУФХЦⅤⅥⅦⅧⅨω

上一讲我们介绍了帝国cms采集基本流程,那么我们这一讲介绍帝国cms如何采集内容分页。不少的同学在采集过程中,列表页和内容页都能可以很好地设定正则,但往往失败在内容分页正则上,主要是对内容分页正则不了解。帝国的内容分页形式有两种:(1)全部列出式(2)上下页导航式,但是这两种内容分页形式有什么区别,采集内容分页时该用哪种,官方说得比较模糊,对此有些同学感到很头大,好的,我们先看下例子:

一、全部列出式
全部列表式只需看第一页的页面HTML代码,这一页的所有分页链接都列出来了。
1、我们以“中华网内容分页(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”为例:
1.JPG
可以看到这条新闻总共有3条分页。
2、查看源代码:
2.jpg
这一页里除了已经采集到的第1条分页外,还包括了第2条和第3条分页,所有的分页都列出来了。
3、取得 分页区域正则([!--smallpageallzz--]):
3.JPG
4、取得 分页链接正则([!--pageallzz--]):
4.JPG

二、上下页导航式
上下页导航式是分页采集的难点,他需要所有页面都符合分页正则才行,在不熟悉的情况下,我们可以用第1页和第2页的代码来进行对比分析然后确定分页正则。
1、我们以“爱丽网内容分页(http://fashion.aili.com/76/445845.html)”为例:
2-1.JPG
可以看到这条新闻总共有20条分页。
2、查看源代码:
2-2.jpg
这一页里除了已经采集到的第1条分页外,还包括了第2,第3,第4,第5,第6,第7,第8,第20条分页,但是第9到第19条分页并没有列出来,这时候我们拿用第1页和第2页的代码来进行对比分析,来确定分页正则:
(1)第1页代码:
2-2-1.jpg
(2)第2页代码:
2-2-2.jpg
从这两幅图片可以看到他们有着相同的“分页区域开始代码”,“分页链接”格式,“分页区域结束代码”,那么就可以确定“分页区域正则”,“分页链接正则”。
3、取得 分页区域正则([!--smallpageallzz--]):
2-3.JPG
4、取得 分页链接正则([!--pageallzz--]):
2-4.jpg
5、为了方便教程显示,newstext我采集了标题而不是采集内容,预览结果:
2-5.JPG

注意事项:
第一、在第一页的页面HTML代码里,内容分页链接全部列出来的情况下我们使用“全部列出式”。在第一页的页面HTML代码里,内容分页链接没有全部列出来的情况下我们使用“上下页导航式”。
第二、用全部列出式时,采集规则正确但是莫名其妙的出现重复的分页,这时可以利用替换法把它过滤掉(下一讲我们再说)。
第三、用上下页导航式时,老是采到第1页,其他页连个影子都没有见过,这是因为分页区域正则([!--smallpagezz--])截取错误。
第四、用上下页导航式时,可以采集到前几页了,但是接下来这前几页全部重复循环到底,这也是因为分页区域正则([!--smallpagezz--])截取错误,截取范围过大,导致重复截取前几个分页链接。
好的,这一讲就到这里,下一讲我们主要介绍帝国cms采集过滤和替换。
本文由 国外网站大全http://www.kguowai.com/ 原创,转载请注明出处,谢谢!

邀您网站 www.10.org.cn
上一个:  帝国cms采集图文教程(上)
展示中:  帝国cms采集图文教程(中)
下一个:  帝国cms结合项列表属性筛选实例教程

温馨提示:本资料由邀您上网导航会员提供,转载请注明出处,资料来源邀您上网导航网站知识库:http://www.10.org.cn/wap/i0125899/.
帝国cms采集图文教程(中) 感谢您的支持!

»如果您觉得'帝国cms采集图文教程(中)'相关资料不全,请点此协作更新!
踩踩此网站0
支持此网站0
(提示:顶到邀您上网导航首页,分享给更多网友!)  

您的姓名: * 可选项
评论内容:
剩余字数:  * 按 Ctrl + Enter 发送.
           
邀您上网导航温馨提示:资料由本站会员自行发布,请大家自辩真伪;评论只需提交一次,请耐心等候审核通过,方可显示.
访问热门区新手教程目录热门知识排行榜
相关展示区您可能感兴趣的一些资料
新收录展示区新收录资源分享区
网站推广,从10开始!第一次网站推广,从10开始!
10移动学院10移动学院,随时随地为站长朋友加油!
< 10客服中心 网站管理 最新收录 >
10移动与电脑版双网址分享平台欢迎您!
*本站网站资料完全免费,敬请您提防上当!
百度移动版 商录手机版 Site Url 百万站手机版 Garply 神马
©2019 站点地图 Powered By www.10.org.cn 邀您上网
首页 返回上一页 顶部