美文网首页
【项目开发日志记录】-J项目

【项目开发日志记录】-J项目

作者: 布衣夜行人 | 来源:发表于2022-01-11 21:57 被阅读0次
当前代码实现功能

1)模拟登陆,点选去除刚刚进入页面时弹出的勾选框
2)实现了对于第一版,10个目标div中目标信息元素的抓取

当前遇到问题

1)各关键目标信息系列表元素分别抓取,没有形成结构化的数据,须补充字典、pandas方面,结构化数据的知识点;
2)未来可能会遇到的问题:
a)点击链接详情页,抓取每个目标模块的详细信息;
b)异步信息加载的查询实现

import requests
import json
import pandas as pd
import time
from lxml import etree
from selenium import webdriver

网址 = 'http://XXXXXhtml'
UA伪装 = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
proxies={
    'http':'http://XXX@XXXX',
    'https':'http://XXXX@XXXXX'
    }

'''
响应数据 = requests.get(url=网址,headers=UA伪装,proxies=proxies,verify=False).text
print(响应数据)
'''

# 获取[浏览器]的实例化对象
浏览器对象 = webdriver.Chrome()
# 使用浏览器打开网址
浏览器对象.get(网址)
#因为网络存在延迟,所以需要延缓几秒打开网页,否则可能存在元素未完全加载的情况
time.sleep(8)
浏览器对象.find_element_by_id('poolSelectCheckTips').click()
浏览器对象.find_element_by_id('btnconfirm').click()
time.sleep(3)
#job_name = 浏览器对象.find_element_by_xpath('//div[@class="centent_l fl"]//h3/a/@title')
job_name = 浏览器对象.find_elements_by_xpath('//div[@class="centent_l fl"]//h3/a')
job_level=浏览器对象.find_elements_by_xpath('//div[@class="centent_l fl"]/p')
job_family=浏览器对象.find_elements_by_xpath('//div[@class="centent_l fl"]/div')
for element in job_name:
    print(element.text)
for element in job_level:
    print(element.text)
for element in job_family:
    print(element.text)

相关文章

网友评论

      本文标题:【项目开发日志记录】-J项目

      本文链接:https://www.haomeiwen.com/subject/dzyicrtx.html