学爬虫有点崩溃。
有什么简单的爬虫代码。简单容易懂的爬虫代码。一直在找,看。终于自己会了一点。
需要下载用Beautifulsoup模块,和requests库
然后就可以比较简单的爬取网页内容。
缺点就是只能一个网站一个网站来,不能自动翻页爬取。有些网站不知道怎么爬取整页,比如爬知乎
先贴下源代码
import requests
from bs4 import BeautifulSoupas as bf
if __name__ =='__main__':
url ='https://www.zhihu.com/question/51134718'
headers = {'User-Agent':''}
html = requests.get(url,headers=headers)
html_text = html.text
soup = bf(html_text,'lxml')
texts = soup.find_all('p')
for i in range(1000):
print(texts[i].text.replace('\xa0'*4,'\n\n'))
url就是你要爬取的网址
headers是网页源代码对应的你的电脑的'user-Agent':'Mozilla/5.0.......'
soup.find_all('p')是找到源代码所有p标签,如果不是p标签可以换成其他标签,如果有属性还可以添加属性
比如find_all('div',class_= 'shows')
只要换了这两个基本上很容易爬文字,只是不能连续爬自动翻页。
for 循环是因为p标签不止一个。
方法很多。
网友评论