• 高房价开始衍生出新一代的低欲望社会! 2019-11-15
  • 解析汽车空调异味漏氟根源 维护需注意这些方面 2019-11-15
  • 2016中国高校体育竞赛榜Top100 2019-11-15
  • 妹妹半个多世纪前嫁到安徽 八旬老人想再见她一面 2019-11-11
  • 风力发电机 藏身高楼中 2019-11-10
  • 候选企业:湖北省交通投资集团有限公司 2019-11-05
  • 朝鲜军人敬了一个礼 特朗普看到后马上回了一个 2019-11-05
  • Си Цзиньпин выступил с важной речью на заключительном заседании 1-й сессии ВСНП 13-го созыва 2019-10-08
  • 联播快讯:第五届中国-南亚博览会今天开幕 2019-10-08
  • 乌鲁木齐举办端午戏曲交响音乐会 两团一院名角新秀齐亮相 2019-10-05
  • 最高人民法院公开开庭审理顾雏军等再审一案 2019-10-01
  • 热评丨游戏成瘾成疾 呼吁行业监管 2019-10-01
  • 胆真大,一下子捅了6个“马蜂窝”! 2019-10-01
  • 高三学生创意毕业照轻松迎高考 2019-09-15
  • 光明日报副总编辑张碧涌 2019-09-15
  • 每周一数丨小采教你如何用火车采集器爬取法律法规新闻数据(送规则+数据)

    2019-10-24 17:36:44 浏览:268

    采集网址:

    //www.pkulaw.cn/cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=&range=name&

    12.png

    采集目标:
    1. 遍历抓取列表页的内容页地址
    2. 内容页采集字段:标题,内容,关键词语,来源
    使用工具:
    1. 火车采集器
    2. Fidder抓包软件
    采集成果:

    本人自创九肖公式规律算法 www.jxoch.tw 13.png



    那么我们接下来看如何用火车采集器来获取法律法规数据。
    第一步:打开火车官网 本人自创九肖公式规律算法 下载最新版火车采集器并安装

    QQ截图20191024172516.png


    第二步:打开软件中列表页面,使用fiddler抓包获取数据包并分析,得到实际的数据请求(多抓取几个分页进行对比)
    QQ截图20191024172547.png
    通过分析可以看出,分页的加载方式是POST请求,POST表单中有控制分页的变量,内容页地址在源码当中的格式清晰可见。

    第三步:在采集器中新建规则,按照Fiddler抓包得到的信息编写列表页的获取规则POST请求地址填写到起始地址栏

    QQ截图20191024172621.png

    填写POST表单,将分页控制参数用[分页]变量替换,然后设置分页范围
    QQ截图20191024172643.png

    第四步:分析源码后,在网址获取选项中设置内容页地址的获取规则,并测试采集列表
    QQ截图20191024172744.png
    将抓包获取的头信息依次填写到HTTP请求设置
    QQ截图20191024172805.png

    第五步:以上全部设置好后,可测试运行列表的获取,获取成功后可以继续制作内容采集规则
    QQ截图20191024172828.png

    第六步:浏览器中打开一个内容页,找到需要采集的字段位置,和源码的对应关系

    QQ截图20191024172847.png

    找到数据的前后位置就可以通过前后截取或者正则提取得到内容
    QQ截图20191024173205.png


    第七步:由于”关键词语”字段有多个值,建议使用循环获取,以下是处理方法

    设置关联多页并保存

    QQ截图20191024173224.png
    从关联多页中进行循环提取
    QQ截图20191024173244.png


    总结:通过Fiddler抓包分析数据请求信息,按照要求填写相应设置,编写内容字段的获取规则即可。
    注意:1.该网站采集存在封IP的问题,需要使用代理后才能长时间采集,
    2.Cookie一段时间后也存在失效问题

    每周一数数据以及采集规则领取时间为2019/10/24日发文后5个工作日内。采集规则涉及到商业版本功能,建议用户登录商业版本使用此规则。


    数据领取资格:火车采集器/火车浏览器/触控精灵商业版软件用户(服务年限内),如果您不是商业用户或者已经过了服务年限,但也想参与活动的话,可以新购软件或者升级续费,这样就能参与活动啦!通知一下哦,双11火车活动优惠折扣很大呢!


    数据领取方式

    第一步:扫码添加火车运营微信号,火车运营助手会拉你进入活动群。

    微信图片_20191024173419.jpg


    第二步:进群后添加数据咨询客服.雅的微信号,经客服验证为服务年限内商业用户身份后,即可领取。


    好啦,本期的“每周一数”就到这里了。如果您还有想要获取更多的数据资源以及采集器规则的话,可以在文章下方或是公众号后台留言,小采会综合大家的意见选择下一期赠送数据的主题哦!






    扫码关注微信
    最受欢迎的网页采集软件! X

    您好,如需了解软件或有数据采集问题请直接联系我们~

  • 高房价开始衍生出新一代的低欲望社会! 2019-11-15
  • 解析汽车空调异味漏氟根源 维护需注意这些方面 2019-11-15
  • 2016中国高校体育竞赛榜Top100 2019-11-15
  • 妹妹半个多世纪前嫁到安徽 八旬老人想再见她一面 2019-11-11
  • 风力发电机 藏身高楼中 2019-11-10
  • 候选企业:湖北省交通投资集团有限公司 2019-11-05
  • 朝鲜军人敬了一个礼 特朗普看到后马上回了一个 2019-11-05
  • Си Цзиньпин выступил с важной речью на заключительном заседании 1-й сессии ВСНП 13-го созыва 2019-10-08
  • 联播快讯:第五届中国-南亚博览会今天开幕 2019-10-08
  • 乌鲁木齐举办端午戏曲交响音乐会 两团一院名角新秀齐亮相 2019-10-05
  • 最高人民法院公开开庭审理顾雏军等再审一案 2019-10-01
  • 热评丨游戏成瘾成疾 呼吁行业监管 2019-10-01
  • 胆真大,一下子捅了6个“马蜂窝”! 2019-10-01
  • 高三学生创意毕业照轻松迎高考 2019-09-15
  • 光明日报副总编辑张碧涌 2019-09-15
  • 北京pk10牛牛是 吉林11选5中奖结果 3d17301期推荐号码 手机棋牌打鱼套路 辽宁十一选五中奖号码的真实规律 中奖投注的宣传文章 老11选5玩法 复式一等奖奖金计算 新浪斗地主安卓版下载 贵州十一选五组三遗漏