我用的是Pycharm这个编辑器,非常好用,这里说的配置环境问题,也是基于它的,安装Python的坑,我遇到两个。首先你得上网上找到一串安装Python3的代码,这里有一个问题经常遇到,就是装Python3的时候网速特别慢,几M的东西要搞个半小时,所以,提醒大家注意了,安装包的时候,速度太慢,应该挂上代理(VPN),这样快很多倍。而使用他去爬网站的时候,把代理关掉。
爬虫第一步访问页面,这里有一个相当重要的概念。就是所有网页的访问,其实都是在本地的,你每次看到的网页,感觉像是在网上,其实是缓存到你本地之后再从你本地展示出来的。所以,爬虫要得到页面之前,也是模拟浏览器行为,将页面存取到本地,而网上有人把requests库的行为比喻为收发信件,我觉得很形象。你想知道别人的消息,你得先寄信给别人,然后别人再返回你一个response,这样你就可以看到别人说什么了。ok,从代码上看一下吧。
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##说实话,这些数据我到现在还没弄明白,但是没关系,我们知道它是模拟浏览器就好
url = 'http://www.duoxinqi.com' ##爬虫入口
response = requests.get(url, headers=headers) ##参照requests的get方法获取url地址的内容,这里要注意的是,得到的response电脑是不认得的,需要解析。
Soup = BeautifulSoup(response.text, 'lxml') ##使用BeautifulSoup来解析网页,('lxml'是制定的解析器)
li_list = Soup.find_all('li') ##使用BeautifulSoup解析的网页获取所需要的内容(find_all顾名思义,就是获取网页内所有符合条件的数据,find_all返回的是一个列表)
for li in li_list:
print(li)
网友评论