爬虫

作者: Rain师兄 | 来源:发表于2020-09-27 22:28 被阅读0次

    学爬虫有点崩溃。

    有什么简单的爬虫代码。简单容易懂的爬虫代码。一直在找,看。终于自己会了一点。

    需要下载用Beautifulsoup模块,和requests库

    然后就可以比较简单的爬取网页内容。

    缺点就是只能一个网站一个网站来,不能自动翻页爬取。有些网站不知道怎么爬取整页,比如爬知乎

    先贴下源代码

    import requests

    from bs4 import BeautifulSoupas as bf

    if __name__ =='__main__':

        url ='https://www.zhihu.com/question/51134718'

        headers = {'User-Agent':''}

        html = requests.get(url,headers=headers)

        html_text = html.text

        soup = bf(html_text,'lxml')

        texts = soup.find_all('p')

        for i in range(1000):

              print(texts[i].text.replace('\xa0'*4,'\n\n'))

    url就是你要爬取的网址

    headers是网页源代码对应的你的电脑的'user-Agent':'Mozilla/5.0.......'

    soup.find_all('p')是找到源代码所有p标签,如果不是p标签可以换成其他标签,如果有属性还可以添加属性

    比如find_all('div',class_= 'shows')

    只要换了这两个基本上很容易爬文字,只是不能连续爬自动翻页。

    for 循环是因为p标签不止一个。

    方法很多。

    相关文章

      网友评论

          本文标题:爬虫

          本文链接:https://www.haomeiwen.com/subject/uqcquktx.html