美文网首页
自动化测试+爬虫+数据可视化 (2)爬虫部分

自动化测试+爬虫+数据可视化 (2)爬虫部分

作者: 糕糕python | 来源:发表于2018-12-24 11:15 被阅读0次

一、前言

其实在selenium中已经整合了部分爬虫,这里我单独拧出来讲。

二、数据清洗与爬虫处理

在得到数据之后,我们需要把数据筛出想要的部分,比如说我希望得到一个目标玩家ID的名单,那么以下爬虫就是收集榜单玩家的写法,然而实际上,这个方法同样可以在selenium中实现。

import requests
import re
def playerID():   #收集榜单玩家
    url ="http://rank.kongzhong.com/Data/wowstopplayer/4276041424.json"
    header ={'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
    urlget = requests.get(url,headers = header) #伪装浏览器
    urlget.encoding ="utf-8" #存在编码问题
    irltext =urlget.text
    #compile = re.compile("<td>(..)</td>\s<td>(\d)</td>.*?target =\"_blank\">(.*?)</a>")
    compile = re.compile("\"nick\":\"(.*?)\",")
    player_text = re.findall(compile,irltext)
    print(player_text)
    for item in player_text:
        with open("playerID","a",encoding="utf-8") as file:
            file.write(item)
            file.write("\n")

playerID()

实际上爬虫最重要的工作是数据清洗,我们看看这个

with open("testdata","r",encoding="utf-8") as data:
    datatest = data.read()
    compile = re.compile("<td>(2018-\d\d-\d\d)</td>.*?<td>(\d)</td>.*?class=\"int\"\stitle=.*?<td\sclass=\"int\spercent\">([\d][\d][\d]%).*?")
    #< td class ="double1 percent" > 100.0 % < / td >
    #< span id = "nick" > 别扭了吃炮弹补脑啊 < / span
    datafindall = re.findall(compile,datatest)
    a =[x[0] for x in datafindall]

testdata里面我需要截取的是这两段,就是打#的部分,最后用a =[x[0] for x in datafindall]则可以提取出对应的各自信息,就是爬虫清洗部分。很简单吧!

相关文章

  • 自动化测试+爬虫+数据可视化 (2)爬虫部分

    一、前言 其实在selenium中已经整合了部分爬虫,这里我单独拧出来讲。 二、数据清洗与爬虫处理 在得到数据之后...

  • 初识python

    python作用 自动化运维、自动化测试、大数据分析、爬虫、Web... Python的种类 CpythonPyt...

  • 爬虫

    总结爬虫流程:爬取--->解析--->存储什么是爬虫?请求网站并提取数据的自动化程序就叫做爬虫。爬虫的主要目的?是...

  • (一)、爬虫基本原理

    1.什么是爬虫 请求网站并提取数据的自动化程序 2.爬虫的基本流程 3.Resquest & Response 3...

  • todo

    爬虫: excel的操作 写: 读: 数据可视化

  • 网络爬虫入门(二)之爬虫的原理

    在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基...

  • 爬虫的基本原理

    在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基...

  • python基础爬虫的框架以及详细的运行流程

    网络爬虫是什么? 网络爬虫就是:请求网站并提取数据的自动化程序 网络爬虫能做什么? 网络爬虫被广泛用于互联网搜索引...

  • 02、爬虫基本原理

    1、什么是爬虫? 请求网站并提取数据的自动化程序 2、爬虫基本流程 发起请求:通过HTTP库向目标站点发起请求...

  • 计算机毕业设计之Python爬虫招聘职位就业可视化(机器学习)

    创新点 机器学习算法可视化数据爬虫 运行截图

网友评论

      本文标题:自动化测试+爬虫+数据可视化 (2)爬虫部分

      本文链接:https://www.haomeiwen.com/subject/otbakqtx.html