美文网首页
4.爬虫基础3

4.爬虫基础3

作者: IPhone2 | 来源:发表于2018-10-26 20:10 被阅读0次

    1.bs4


    BeaufulSoup 和lxml一样都是用于解析html的框架,对数据的分析和提取。

    和lxml相比,效率略低,用起来比较方便

    bs4需要下载安装: pip install bs4


    2.jsonPath(了解)


    安装:pip install jsonpath


    3.selenium


    selenium+phatomjs和selenium+chrome

    selenium:是一种用于web程序测试的工具,selenium测试的代码可以直接运行在浏览器中,就像真正的用户操作一样。

    在写python爬虫的时候,主要是用selenium的webdriver 来驱动浏览器进行相关的操作

    安装:pip install selenium

    selenium中元素查找:
        find_element_by_id()
        find_elements_by_name()
        find_elements_by_xpath()
        find_elements_by_tag_name()
        find_elements_by_class_name()
        find_elements_by_css_selector()
        find_elements_by_link_text()
    
        事件
        click() 点击
        send_keys() 输入
        switch_to_alert()
    

    chromedriver:谷歌浏览器驱动
    加载方法如下:

    法一:driver = webdriver.Chrome(r'/Users/liujun/Desktop/chromedriver')
    
    法二:把chromedriver的目录配成环境变量路径,然后:driver = webdriver.Chrome()
    
    
    【注意】chromedriver的版本要和chrome浏览器相对应,不然很多功能不能用

    下载操作谷歌浏览器驱动的页面:http://chromedriver.storage.googleapis.com/index.html 或者 http://npm.taobao.org/mirrors/chromedriver/2.37/

    谷歌驱动和谷歌浏览器版本之间的映射表:http://blog.csdn.net/huilan_same/article/details/51896672

    phantomjs:无界面浏览器
    加载方法如下:

    法一:driver = webdriver.PhatomJS("C:\Users\ZBLi\Desktop\1706\day04\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe")
    
    法二:把phantomjs拷贝到c盘下,并把bin目录配置成环境变量,然后driver = webdriver.PhatomJS()
    
    
    【注意】phantomjs目前已经不再更新

    下载地址:http://phantomjs.org/download.html

    相关文章

      网友评论

          本文标题:4.爬虫基础3

          本文链接:https://www.haomeiwen.com/subject/uriltqtx.html