招聘数据采集:最简单,最好用,爬一爬采集器

2022年8月4日 27点热度 0人点赞

以拉勾网为例,采集上海地区最新职位的招聘信息,感兴趣的也可自己下载插件,采集智联招聘、58招聘等各大招聘网站数据。采集步骤类似。

工具/原料

  • 爬一爬数据采集器

方法/步骤

  1. 1

    在谷歌浏览器中打开官网(pa1pa),下载浏览器插件,并如下步骤安装。

  2. 2

     安装成功后,在浏览器点击插件栏上便会出现”爬”的图标,注册登录即可使用爬一爬数据采集器。

  3. 3

    打开想要采集的网站,点击浏览器插件栏的”爬”的图标,启动插件。依次点击选取所要抓取的元素。如果色彩框没有包含所有的任务数据, 点击切换按钮,切换算法,直到选中所有的任务数据。(#注:本例的采集模式为Click Mode)

  4. 4

    如果要抓取多页信息,按照下图所示,点击分页设置的箭头后,选中“下一页”,并设置点击的次数。(#注:Click mode 在”分页设置”选择时候区别于Auto Mode,只选中“下一页”的按钮即可,非全部页码区域。)

  5. 5

    确认色彩框选中全部数据后,先点击“完成”按钮,再点击“测试”按钮,测试所采集的数据是否就是您想要的。

  6. 6

    确认测试成功后,点击”OK”按钮关闭测试窗口。填写任务名称(长度为4-32的字符,必填),并根据个人需要修改列名。

  7. 7

    点击“提交”按钮,任务创建成功。您可在官网的该任务的"任务总览"页面下运行并管理该任务。

  8. 8

    任务运行结束后,在页面的“数据”选项即可查看并下载完整数据。

  9. 9

    如果想获得本例采集的数据,可在官网论坛页面的数据中心下载或关注我索要即可。

    END

注意事项

  • 如果数据出现采集不全的情况,建议吧加载时间设置长一点,频率设置大一点。
  • 采集多页时候,多数网站均可用Auto Mode模式,下载器为http
  • 如果解析为空,下载器更换为js-engine
经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。
展开阅读全部

laozhao

这个人很懒,什么都没留下

文章评论