• 宁夏沙坡头区:粽情端午香飘邻里 2020-01-23
  • 【理上网来·辉煌十九大】韩庆祥谈十九大报告总体感受:一个字“新” 2020-01-20
  • 8单位首次发出广州建筑遗产保护利用倡议 2020-01-17
  • 清明假期山西旅游综合收入37.96亿 接待游客807.22万人次 2020-01-17
  • 女性之声——全国妇联 2020-01-12
  • 故事中美两军举行人道主义救援减灾联合实兵演练 2020-01-12
  • 网络媒体新春走基层——西部网新闻频道 2020-01-09
  • 张育林代表推进泰兴经济社会发展高质量上台阶 2020-01-09
  • “中国区域经济50人论坛”成立大会暨第一次研讨会在京举行 2020-01-06
  • 一个小学语文代课老师跟咱玩语文?分分钟碾压你![酷] 2020-01-06
  • 打造科技创新领域的竞争优势 2020-01-05
  • 庆祝中国人民解放军建军90周年大会 2020-01-02
  • 联合国安理会发表声明 强烈谴责阿富汗恐怖袭击 2019-12-30
  • 3只百亿级央企改革ETF基金获批 这些央企或入选指数 2019-12-30
  • 中国文化和旅游部严查严管营业性演出市场 2019-12-29
  • 每周一数丨送你一份国家药品数据(附采集教程)

    2019-12-03 13:11:03 浏览:583
    采集网址:

    https://www.drugfuture.com/cndrug/national.aspx?ApprovalNumber=&ApprovalNumberOld=&NDCNumber=&ProductName=&EnglishName=&TradeName=&Manufacturer=&Dosage=&Form=&Category=&ApprovalDateStart=1970-06-26&ApprovalDateEnd=&Restriction=fuzzy

    QQ截图20191203130546.png

    采集目标:

    1. 获取网站里表格的下全部内容

     

    2. 内容页采集字段批准文号、药品本位码、产品名称、生产厂家、产品地址、规格、剂型、类别、批准日期。


    使用工具:
    1. 火车采集器
    2. Fidder抓包软件
    采集成果:

    QQ截图20191203130613.png



    第一步:打开火车官网 本人自创九肖公式规律算法 下载最新版火车采集器并安装

    QQ截图20191203130637.png

    第二步: 确定采集器思路

    需要采集的字段都在列表页中,那么就可以列表页标签采集。

    在桌面浏览器中打开可以看到,这个网址中的内容分成两块,我们今天采集的是上面的这块,而且点击下一页的时候,网址是不变化的,那么就需要抓包获取真实网址,请求真实网址,在真实网址的源码中采集。

    QQ截图20191203130658.png


    第三步:fiddler抓包分析
    可以看出是post类型的网址采集,获取两个分页的数据包,对比两个post值,看看不同的地方,可以用&进行分块查询分析(一个等于号和一个&中间是一个值)

    QQ截图20191203130725.png

     

    分析后



    QQ截图20191203130744.png

    第四步:把分析后的数据包中对应的值填写到采集器中

    QQ截图20191203130817.png


    根据网页上的编码,填写网页编码,post类型采集,一定要填写网页编码:


    QQ截图20191203130834.png


    第五步: 现在需要获取采集的数据,前面已经提到,需要采集的数据都是在列表页中,那么我们就可以想获取内容页网址一样,在抓包的post数据包的源码中分析需要获取的数据

    QQ截图20191203130906.png


    拼接网址那边使用的是[标签:批准文号],实际获得的内容页网址不是正确的网址(https://www.drugfuture.com/cndrug/国药准字H20060422),现在开始测试请求,看采集器是否出现报错情况


    QQ截图20191203130928.png

    第六步: 测试请求报404的错误,那么可以在其他设置中的其他配置,设置忽略404报错:

    QQ截图20191203130957.png


    使得不正确的内容页网址可以正常请求,因为没有设置内容页标签,所以只是请求,不会采集内容页标签,数据都在列表页标签中采集到了。


    总结:

    采集过程中有的客户会想到,既然数据都在列表页标签中采集了,那么就不要采集内容页就是了或者直接使用起始页就是内容页进行采集。

    第一,因为是post类型的网址,若是用内容页采集的话,需要使用插件进行处理内容页post,但是使用列表页post就不用插件了。

    第二,可以不采集内容页,只采集网址(就是列表页),退出编辑任务窗口,选中任务,只勾选,采网址,其他两个不勾选,采集结束后,需要选中任务,右键编辑本地数据,使用sql语句更新语句,更新所有数据为已采,这样才能进行发布数据.


    每周一数数据以及采集规则领取时间为2019/11/28日发文后5个工作日内。采集规则涉及到商业版本功能,建议用户登录商业版本使用此规则。


    数据领取资格:火车采集器/火车浏览器/触控精灵商业版软件用户(服务年限内),如果您不是商业用户或者已经过了服务年限,但也想参与活动的话,可以新购软件或者升级续费,这样就能参与活动啦!


    数据领取方式:

    第一步:扫码添加火车运营微信号,火车运营助手会拉你进入活动群。

    微信图片_20191024173419.jpg


    第二步:进群后添加数据咨询客服.雅的微信号,经客服验证为服务年限内商业用户身份后,即可领取。


    好啦,本期的“每周一数”就到这里了。如果您还有想要获取更多的数据资源以及采集器规则的话,可以在文章下方或是公众号后台留言,小采会综合大家的意见选择下一期赠送数据的主题哦!



    每周一数丨生病如何快速确定病因并及时治疗?小采送你一份健康数据(附带教程)

    速看|火车采集器V9.11版本更新

    本人自创九肖公式规律算法 www.jxoch.tw 旅游网站数据爬?。ㄔ褪?规则)

    双十一优惠券采集(附送数据+规则)

    触控精灵功能讲解之微信通讯录的备份

    触控精灵实战教程——微信公众号文章的采集与发布

    触控精灵实战教程——网站发布篇



    扫码关注微信
    最受欢迎的网页采集软件! X

    您好,如需了解软件或有数据采集问题请直接联系我们~

  • 宁夏沙坡头区:粽情端午香飘邻里 2020-01-23
  • 【理上网来·辉煌十九大】韩庆祥谈十九大报告总体感受:一个字“新” 2020-01-20
  • 8单位首次发出广州建筑遗产保护利用倡议 2020-01-17
  • 清明假期山西旅游综合收入37.96亿 接待游客807.22万人次 2020-01-17
  • 女性之声——全国妇联 2020-01-12
  • 故事中美两军举行人道主义救援减灾联合实兵演练 2020-01-12
  • 网络媒体新春走基层——西部网新闻频道 2020-01-09
  • 张育林代表推进泰兴经济社会发展高质量上台阶 2020-01-09
  • “中国区域经济50人论坛”成立大会暨第一次研讨会在京举行 2020-01-06
  • 一个小学语文代课老师跟咱玩语文?分分钟碾压你![酷] 2020-01-06
  • 打造科技创新领域的竞争优势 2020-01-05
  • 庆祝中国人民解放军建军90周年大会 2020-01-02
  • 联合国安理会发表声明 强烈谴责阿富汗恐怖袭击 2019-12-30
  • 3只百亿级央企改革ETF基金获批 这些央企或入选指数 2019-12-30
  • 中国文化和旅游部严查严管营业性演出市场 2019-12-29
  • 摩臣娱乐群 qq股票推荐 山东福彩七乐彩走势图 3D 刮刮乐 手机捕鱼赢钱 山西快乐10分走势图派彩电子 黑龙江快乐10分开奖号码 舟山星空棋牌老大厅 篮球比分网188