Python爬虫学习-基础爬取

作者: 掷骰子的求 | 来源:发表于2016-05-10 12:51 被阅读1997次
    编译环境:python v3.5.0, mac osx 10.11.4
    第三方库:针对网页解析,python有丰富的第三方库如:

    BeautifulSoup, urllib, requests etc.
    可以通过import来引入指定第三方库,通过from lib import function导入第三方库中的指定函数。如:
    import requests, urllib.request, time, os from bs4 import BeautifulSoup # 导入需要用到的第三方库

    对网页进行解析:BeautifulSoup & url lib

    url = 'https://www.ncbi.nlm.nih.gov/core/alerts/alerts.js_=1462105646975' wb_dt=requests.get(url) soup=BeautifulSoup(wb_dt.text,'lxml')
    上述代码可以解析指定url中的HTML, 通过requests中的get方式获得。
    wb_dt.text可以获得HTML的纯文本文件。
    BeautifulSoup(wb_dt.text,'lxml')则能对传入的纯文本文件采用lxml库进行解析。

    筛选需要的信息:soup.select('selector')

    可以通过chrome浏览器中的检查查询指定元素的位置,复制selector到
    soup.select('selector')

    这一步骤主要是为了筛选所选元素特殊的位置,selector只要能指定到所需信息的位置即可。
    动态网页解析

    当我们需要爬取动态网页大量页面信息时,我们可以从不断response为HTML的headers中找寻规律。如图所示,我们发现其连续加载其实是在返回时不断通过request中url的改变生成。


    实战源代码 1 爬取霉霉照片

    其中导入的os模块可以判断目录是否存在以及新建目录。
    os.makedir(path)os.makedirs(path)的区别在于若父级目录不存在,则os.makedir(path)会报错,而os.makedirs(path)则会连同父级目录一起创建
    os.path.exists(path)则可以检查目录是否存在
    总结 1

    1、第三方库可以良好的解析我们需要爬取的网页
    2、通过刷新发现,观察response可以发现request规律,从而抓取静态网页
    3、针对具有反爬虫的网页,可以利用time库中的
    time.sleep(seconds)来降低访问频率。加入header和proxies也可以防止针对ip的反爬取。
    4、常用user agent https://blog.phpgao.com/user_agent_collection.html

    实战源代码 2 爬取一页商品数据(初识API)

    BeautifulSoup文档
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/
    利用正则表达式


    **筛选出选定区域的字符串.strings **
    去除字符串中的大片空格区域.stripped_strings
    整体代码
    ####总结 2
    • 观察推广和转转href与正常商品信息之间的差别,可以通过
      soup.select('a[href^="http://bj.58.com/"]')
    • 发现返回值不对时,值可能由js,node.js等生成
      打印soup 搜索变量名再从network文件凭经验中找寻

      主要看response返回的值为文本的文件
      确定目标后看url和headers,遇到反爬将cookies等全部写入headers中逐个尝试,此次实践,request中需要加referee
      此次找寻流程:
      从按前面提到的方法,网页中检查浏览量。

      发现soup返回值不对,查询soup值发现所含值为0。
      推测其值可能由js或者node.js控制,重新加载页面查询network中的js文件,查看返回值为文本的文件。
      找到目标文件后,查看其headers。
      根据headers编译探索request请求(针对反爬)

      All source code can be downloaded at GitHub:
      https://github.com/jacobkam/WebCrawlerLearning.git

    相关文章

      网友评论

        本文标题:Python爬虫学习-基础爬取

        本文链接:https://www.haomeiwen.com/subject/fqmjrttx.html