美文网首页
【项目开发日志记录】-J项目

【项目开发日志记录】-J项目

作者: 布衣夜行人 | 来源:发表于2022-01-11 21:57 被阅读0次
    当前代码实现功能

    1)模拟登陆,点选去除刚刚进入页面时弹出的勾选框
    2)实现了对于第一版,10个目标div中目标信息元素的抓取

    当前遇到问题

    1)各关键目标信息系列表元素分别抓取,没有形成结构化的数据,须补充字典、pandas方面,结构化数据的知识点;
    2)未来可能会遇到的问题:
    a)点击链接详情页,抓取每个目标模块的详细信息;
    b)异步信息加载的查询实现

    import requests
    import json
    import pandas as pd
    import time
    from lxml import etree
    from selenium import webdriver
    
    网址 = 'http://XXXXXhtml'
    UA伪装 = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
    proxies={
        'http':'http://XXX@XXXX',
        'https':'http://XXXX@XXXXX'
        }
    
    '''
    响应数据 = requests.get(url=网址,headers=UA伪装,proxies=proxies,verify=False).text
    print(响应数据)
    '''
    
    # 获取[浏览器]的实例化对象
    浏览器对象 = webdriver.Chrome()
    # 使用浏览器打开网址
    浏览器对象.get(网址)
    #因为网络存在延迟,所以需要延缓几秒打开网页,否则可能存在元素未完全加载的情况
    time.sleep(8)
    浏览器对象.find_element_by_id('poolSelectCheckTips').click()
    浏览器对象.find_element_by_id('btnconfirm').click()
    time.sleep(3)
    #job_name = 浏览器对象.find_element_by_xpath('//div[@class="centent_l fl"]//h3/a/@title')
    job_name = 浏览器对象.find_elements_by_xpath('//div[@class="centent_l fl"]//h3/a')
    job_level=浏览器对象.find_elements_by_xpath('//div[@class="centent_l fl"]/p')
    job_family=浏览器对象.find_elements_by_xpath('//div[@class="centent_l fl"]/div')
    for element in job_name:
        print(element.text)
    for element in job_level:
        print(element.text)
    for element in job_family:
        print(element.text)
    

    相关文章

      网友评论

          本文标题:【项目开发日志记录】-J项目

          本文链接:https://www.haomeiwen.com/subject/dzyicrtx.html