爬虫

作者: Rain师兄 | 来源:发表于2020-09-27 22:28 被阅读0次

学爬虫有点崩溃。

有什么简单的爬虫代码。简单容易懂的爬虫代码。一直在找,看。终于自己会了一点。

需要下载用Beautifulsoup模块,和requests库

然后就可以比较简单的爬取网页内容。

缺点就是只能一个网站一个网站来,不能自动翻页爬取。有些网站不知道怎么爬取整页,比如爬知乎

先贴下源代码

import requests

from bs4 import BeautifulSoupas as bf

if __name__ =='__main__':

    url ='https://www.zhihu.com/question/51134718'

    headers = {'User-Agent':''}

    html = requests.get(url,headers=headers)

    html_text = html.text

    soup = bf(html_text,'lxml')

    texts = soup.find_all('p')

    for i in range(1000):

          print(texts[i].text.replace('\xa0'*4,'\n\n'))

url就是你要爬取的网址

headers是网页源代码对应的你的电脑的'user-Agent':'Mozilla/5.0.......'

soup.find_all('p')是找到源代码所有p标签,如果不是p标签可以换成其他标签,如果有属性还可以添加属性

比如find_all('div',class_= 'shows')

只要换了这两个基本上很容易爬文字,只是不能连续爬自动翻页。

for 循环是因为p标签不止一个。

方法很多。

相关文章

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • 爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索...

  • (了解)通用爬虫和聚焦爬虫--爬虫基础教程(python)(二)

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.我们主要写通用爬虫。 通用爬虫 通...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

网友评论

      本文标题:爬虫

      本文链接:https://www.haomeiwen.com/subject/uqcquktx.html