美文网首页大数据 爬虫Python AI Sqlpython学习我爱编程
Python写一个简单的爬虫样例(不超过50行代码)

Python写一个简单的爬虫样例(不超过50行代码)

作者: 小天真_5eeb | 来源:发表于2018-08-08 13:40 被阅读2次

    ###写在题外的话

    爬虫,我还是大三的时候,第一次听说,当时我的学姐给我找的一个勤工俭学的项目,要求是在微博上爬出感兴趣的信息,结果很遗憾,第一次邂逅只是擦肩而过。然后,时间来到4年后的研二,在做信息检索作业时,老师让选择一个自己感兴趣的主题,于是,第二次不期而遇。这次相遇,我本以为自己不会轻易放手,结果依然是无疾而终。直到,今天,我变成了一个人,再次相遇,我不再路过。然后,才发现,原来做一个爬虫并不难,我一直都Too young, too simple.一句话,想做爬虫,就来吧,Seize the day.

    一、python爬虫综述

    一个简单的爬虫,两部分组成,下载html和解析html文档。我实现了一个爬取糗事百科的首页的笑话的网络爬虫,大家可以用来参考。

    二、python爬虫开发环境的搭建

    开发环境:python2.7(win10-64)

    开发IDE:pycharm最新版,就OK

    使用到的工具包:setuptools, pip, chardet, certifi, idna, lxml, urllib3, requests, beautifulsoup, bs4所有用到的这些包我都打包放在了我的资源里,大家可以去下载,或者,直接在网上下载最新的python工具包。

    小编推荐一个学Python的学习裙【 二二七,四三五,四五零 】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有很多干货和技术分享

    三、pythonIDE的安装

    使用pycharm进行python的项目,在网上很容易下载到,在注册的时候,可以使用关键字(pycharm,2017,注册码)

    四、源代码

    # coding=utf-8

    importrequests

    frombs4importBeautifulSoup

    # 获取html文档

    defget_html(url):

    """get the content of the url"""

        response = requests.get(url)

    response.encoding ='utf-8'

    returnresponse.text

    # 获取笑话

    defget_certain_joke(html):

    """get the joke of the html"""

    soup = BeautifulSoup(html,'lxml')

    joke_content = soup.select('div.content')[0].get_text()

    returnjoke_content

    url_joke ="https://www.qiushibaike.com"

    html = get_html(url_joke)

    joke_content = get_certain_joke(html)

    printjoke_content

    相关文章

      网友评论

        本文标题:Python写一个简单的爬虫样例(不超过50行代码)

        本文链接:https://www.haomeiwen.com/subject/svotbftx.html