Python学习笔记[Python3环境搭建 | 爬虫基础]

作者: 鸡仔说 | 来源:发表于2016-12-02 08:50 被阅读96次

Python3学习笔记--基础知识
Python学习笔记[Python3环境搭建 | 爬虫基础]
PY爬虫
是时候学一波python了
Python3的安装
python3爬虫学习笔记(一)
Django REST framework 教程（2）—— 序
Python 爬虫笔记1 一（简单开场）
使用python脚本进行SpringBoot项目多节点上传部署
windows下Python 虚拟环境搭建

我用的是Pycharm这个编辑器，非常好用，这里说的配置环境问题，也是基于它的，安装Python的坑，我遇到两个。首先你得上网上找到一串安装Python3的代码，这里有一个问题经常遇到，就是装Python3的时候网速特别慢，几M的东西要搞个半小时，所以，提醒大家注意了，安装包的时候，速度太慢，应该挂上代理（VPN），这样快很多倍。而使用他去爬网站的时候，把代理关掉。

爬虫第一步访问页面，这里有一个相当重要的概念。就是所有网页的访问，其实都是在本地的，你每次看到的网页，感觉像是在网上，其实是缓存到你本地之后再从你本地展示出来的。所以，爬虫要得到页面之前，也是模拟浏览器行为，将页面存取到本地，而网上有人把requests库的行为比喻为收发信件，我觉得很形象。你想知道别人的消息，你得先寄信给别人，然后别人再返回你一个response，这样你就可以看到别人说什么了。ok，从代码上看一下吧。

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##说实话，这些数据我到现在还没弄明白，但是没关系，我们知道它是模拟浏览器就好
url = 'http://www.duoxinqi.com' ##爬虫入口
response = requests.get(url, headers=headers) ##参照requests的get方法获取url地址的内容，这里要注意的是，得到的response电脑是不认得的，需要解析。
Soup = BeautifulSoup(response.text, 'lxml') ##使用BeautifulSoup来解析网页，（'lxml'是制定的解析器）
li_list = Soup.find_all('li')  ##使用BeautifulSoup解析的网页获取所需要的内容（find_all顾名思义，就是获取网页内所有符合条件的数据，find_all返回的是一个列表）
for li in li_list:
    print(li)