Python数据挖掘(爬虫强化)

作者: 我爱学python | 来源:发表于2019-06-18 16:14 被阅读96次

    我要把爬虫的终极利器介绍一下,这个只要是我们肉眼能看到的,就算在源码中或者在json中,或是post也无法得到的数据,我们都可以获取到,雷同F12后源码暴露在你面前一样!

    这次需要用到selenium家族的一些成员,它们各司其职,各个身怀绝技

    先介绍一下selenium模块:Selenium is a suite of tools specifically for automating web browsers.(Selenium是一套专门用于自动化web浏览器的工具。)

    ---:(这里补充一下,在需要用到这种大型模块的时候,一定要去读官方文档,不要去听百度里面和一些断章取义的人瞎写的内容,他们更容易把你带偏。)

    这个Selenium模块主要是应对我们自动浏览网页数据所需要用的,让程序来执行半智能,前提你要教会它去做什么事情!

    直接介绍此次所需要用到的家族模块:

    一、每一个解释一下哈,按顺序对号:

    1、主模块的嵌入,主要是应对控制程序自动打开浏览器浏览网页功能。

    2、作为开发人员,尤其是对网页自动化测试的开发工具必须需要time模块来制约程序的访问时间,因为可能网站会直接把你IP封掉。

    3、selenium 模块家族成员Keys,此成员是应当以模拟键盘操作,应对模拟输入用户登录名和密码,或者价值数据索引输入。

    4、selenium 模块家族成员ActionChains,它则是应对模拟鼠标操作,对与鼠标的双击,单击,左右键,应对我们翻页,搜索按钮的点击功能。

    5、selenium 模块家族成员By,这个则是我们要教会它所要做的事情,也是我们数据挖掘又要用到的核心价值功能之一,应对价值数据抓取。

    二、开发初步:

    1、操作程序打开浏览器并打开我们需要进入的网页:

    这里可以自己测试一下,我所使用的是Google的浏览器,你们可以尝试使用Firefox,他们有一些的区别,主要是站点的区别!

    2、进入页面后锁定tag

    html:

    python:

    这里每一个都是锁定tag树,它们都是根据id,class,name,tagname来定义的。

    这是通用方法的,Xpath方法,它们都输属于解析网页的内容锁定tag。

    3、处理操作:

    当我们锁定功能键的tag属性的时候,我们就可以进一步操作,比如换页,搜索功能的实现

    这里我们就介绍一下模拟鼠标的操作:

    因为时间问题,我只是介绍一下鼠标左键单击换页操作,其他的何以参考一下官方文档:Selenium Webdrive

    ActionChains:锁定浏览器,double_click锁定tag标签树,.perform():点击标签树

    4、获取价值数据

    这里的操作类似与Xpath的语法:

    这里注意一下elements,指所有的tag-> a比标签的href,这里是list格式,需要遍历。

    5、最后来一串完整代码:

    selenium有个小GUB,就是在用Xpath的时候,你已经找到父级tag,但是这个父级很多,比如tr,你如果遍历它,寻找td的话,那么你还是使用find_elements_by_tag_name,因为那个会初始化,不会管你找到那个父级。所以这里是需要注意的!

    相关文章

      网友评论

        本文标题:Python数据挖掘(爬虫强化)

        本文链接:https://www.haomeiwen.com/subject/zcnfqctx.html