美文网首页
day3、bs4,jsonPat(了解),selenium,ch

day3、bs4,jsonPat(了解),selenium,ch

作者: 是东东 | 来源:发表于2018-08-16 21:05 被阅读0次

    1、bs4

    BeaufulSoup 和lxml一样都是用于解析html的框架,对数据的分析和提取。

    和lxml相比,效率略低,用起来比较方便

    bs4需要下载安装: pip install bs4

    2、jsonPath(了解)

    安装:pip install jsonpath

    3、selenium

    selenium+phatomjs和selenium+chrome

    selenium:是一种用于web程序测试的工具,selenium测试的代码可以直接运行在浏览器中,就像真正的用户操作一样。

    在写python爬虫的时候,主要是用selenium的webdriver 来驱动浏览器进行相关的操作

    安装:pip install selenium

    selenium中元素查找:

    ​ find_element_by_id()

    ​ find_elements_by_name()

    ​ find_elements_by_xpath()

    ​ find_elements_by_tag_name()

    ​ find_elements_by_class_name()

    ​ find_elements_by_css_selector()

    ​ find_elements_by_link_text()

    ​ 事件

    ​ click() 点击

    ​ send_keys()

    ​ switch_to_alert()

    chromedriver:谷歌浏览器驱动

    加载方法如下:

    法一:driver = webdriver.Chrome(r'/Users/fanjianbo/Desktop/chromedriver')
    
    法二:把chromedriver的目录配成环境变量路径,然后:driver = webdriver.Chrome()
    

    【注意】chromedriver的版本要和chrome浏览器相对应,不然很多功能不能用

    下载操作谷歌浏览器驱动的页面:http://chromedriver.storage.googleapis.com/index.html 或者 http://npm.taobao.org/mirrors/chromedriver/2.37/
    
    谷歌驱动和谷歌浏览器版本之间的映射表:http://blog.csdn.net/huilan_same/article/details/51896672
    

    phantomjs:无界面浏览器

    加载方法如下:
    
        法一:driver = webdriver.PhatomJS("C:\Users\ZBLi\Desktop\1706\day04\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe")
    
        法二:把phantomjs拷贝到c盘下,并把bin目录配置成环境变量,然后driver = webdriver.PhatomJS()
    

    【注意】phantomjs目前已经不再更新

    下载地址:http://phantomjs.org/download.html

    相关文章

      网友评论

          本文标题:day3、bs4,jsonPat(了解),selenium,ch

          本文链接:https://www.haomeiwen.com/subject/icfabftx.html