美文网首页
DataEngineer-Crawler

DataEngineer-Crawler

作者: JoviConsultant | 来源:发表于2019-01-28 11:15 被阅读0次

DataEngineer-Crawler(上海黄浦区)


Responsibilities

- 负责垂直网站网页数据的爬取、清洗

- 解决各种反爬取问题,保证爬取进度

- 优化爬取效率,监控数据爬取进展

- 研究网站安全的新技术等

- 数据清洗,数据挖掘等相关研发工作

Requirements

- 两年以上相关开发经验

- 熟悉 Python 或 java 两门语言

- 熟悉 scrapy、pyspider、webmagic、nutch 等任一爬虫框架

- 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则、xpath、cssselector 的网页抽取技术

- 熟悉反爬机制,能解决疑难爬取问题

- 熟悉 Mysql,redis,mongdb,oracle 至少之二,有过数据库调优和海量数据存储经验优先

- 有验证码破解,反爬,分布式爬虫架构,数据挖掘,搭建数据仓库经验者优先

- 具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先

- 良好的英文沟通能力,英文文档写作能力

- 优先考虑有在国际化团队工作经验的候选人

相关文章

  • DataEngineer-Crawler

    DataEngineer-Crawler(上海黄浦区) Responsibilities - 负责垂直网站网页数据...

网友评论

      本文标题:DataEngineer-Crawler

      本文链接:https://www.haomeiwen.com/subject/vaxajqtx.html