美文网首页
爬取拉钩网招聘信息 储存到mongodb

爬取拉钩网招聘信息 储存到mongodb

作者: a十二_4765 | 来源:发表于2017-04-13 23:50 被阅读114次

    本文源代码在 https://github.com/zhangshier/-.git 可下载

    安装 pip install scrapy  

    安装pip install pymongo

    需要爬取的内容

     分析拉钩页面  按住F12

    开始创建项目

    1.新建个文件夹  本人是在F 盘下的pachong文件夹下  各位随意

    然后win+R启动cmd命令  跳转到你的文件下 

    使用 scrapy startproject lagou 创建存放爬虫的文件

    回车后创建项目 然后 进入你创建的项目 然后创建爬虫

    使用scrapy genspider lgw lagou.com 创建爬虫

    main.py 里配置下

    fromscrapy.cmdlineimportexecute

    importsys

    importos

    sys.path.append(os.path.dirname(os.path.abspath(__file__)))

    execute(["scrapy","crawl","lgw"])

    要找到的‘java开发工程师’ 

    使用xpath 匹配

    xpath 不会的可以参考 http://www.w3school.com.cn/xpath/index.asp

    使用xpath匹配java工程师

    response.xpath('//div[@class="list_item_top"]/div[@class="position"]/div[@class="p_top]/a/h2/text(')

    可以直接在main 里使用run 运行

    配置mondogo

    items.py

    数据库内容展示

    相关文章

      网友评论

          本文标题:爬取拉钩网招聘信息 储存到mongodb

          本文链接:https://www.haomeiwen.com/subject/jguiattx.html