Python爬虫系列（一）初期学习爬虫的拾遗与总结（11.4更）

作者: 致Great | 来源:发表于2017-04-16 18:20 被阅读5712次

资料
Python爬虫系列（一）初期学习爬虫的拾遗与总结（11.4更）
Python爬虫学习系列教程
java爬虫与python爬虫谁更强？
Python爬虫入门(01) -- 10行代码实现一个爬虫
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍

最近，为了提取裁判文书网的有关信息，自己迈入Python的学习之路，写了快两周的代码，自己写这篇文章总结下踩过的坑，还有遇到一些好的资料和博客等总结下（站在巨人肩膀上，减少重复工作），以便自己后期复习和参考和、分享给大家交流学习，也欢迎大家补充些精彩内容。

一、环境搭建和工具准备

1、为了省去时间投入学习，推荐直接安装集成环境 Anaconda

2、IDE：Pycharm、Pydev

3、工具：Jupyter Notebook（安装完Anaconda会有的）

二、Python基础视频教程

1、疯狂的Python：快速入门精讲（Python2.x，可体验到与Python3.x的差异）

2、零基础入门学习Python（小甲鱼的视频课程）

看完这些课程，自己对Python有一个感觉和掌握，可以继续看一些进阶教程

3、Python3大全（pasword:bf3e）（ps：如果连接失效大家可以留下百度云账号）

三、Python爬虫视频教程

1、Python网络爬虫实战（完整的看下来，收获不小）

2、Python3爬虫三大案例实战分享（非常好的课程，很多干货）

四、Python爬虫的相关连接

1、python爬虫的最佳实践

2、Python网络爬虫实战项目代码大全

3、零基础制作一个Python 爬虫

4、Python爬虫入门

5、Python3（csdn博客）

7、抓取斗鱼tv的房间信息

五、正则表达式和BeautifulSoup、PhatomJS +Selenium、urllib、代理的使用

正则表达式

1、Python爬虫小白入门

2、 Python 正则表达式 re 模块简明笔记

3、Python爬虫入门（7）：正则表达式

4、Python3中正则表达式使用方法（这篇文章最棒了，仔细写下来足够了-6.8）

PhatomJS +Selenium

1、【Python 笔记】selenium 简介

2、Selenium Webdriver定位页面元素的几种方式

3、 Python爬虫利器Selenium+PhantomJS系列入门

4、轻松自动化---selenium-webdriver(python)（ps：系列教程）

5、selenium2.0关于python的常用函数（一）（ps:定位元素的方法）

BeautifulSoup和Xpath

1、Python爬虫入门（8）：Beautiful Soup的用法

2、Python爬虫利器三之Xpath语法与lxml库的用法

（大家可以关注写这些文章的作者，一般他们有Python文集，大家可以收藏下有参考价值的文章）

urllib

1、

Python之urlparse模块

（ps：解析图片的src地址很有用）

2、Python urllib模块urlopen()与urlretrieve()详解(‘下载文件很有用’)

代理

1、自建免费PYTHON爬虫代理IP池

2、关于Python爬虫代理，看这篇就够了

六、自己爬取新浪新闻相关信息的实战

爬取页面

我直接把源码贴在这里了，是参考Python网络爬虫实战课程做下来的

新闻评论数抽取函数

import re

import json

import requests

#js抓取新闻评论信息

commentURL='http://comment5.news.sina.com.cn/page/info?version=1&format=js&\

channel=gn&newsid=comos-{}&\

group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700'

def getCommentCounts(newsurl):

#获取新闻id

m=re.search('doc-i(.+).shtml',newsurl)

newsid=m.group(1)

#根据新闻id获取评论信息

comments=requests.get(commentURL.format(newsid))

#将信息解析为json格式

jd=json.loads(comments.text.strip('var loader_1491395188566_53913 700='))

return jd['result']['count']['total']

新闻内文信息抽取函数

import requests

from datetime import datetime

from bs4 import BeautifulSoup

def getNewsDetail(newsurl):

result={}

res=requests.get(newsurl)

res.encoding='utf-8'

soup=BeautifulSoup(res.text,'html.parser')

result['title']=soup.select('#artibodyTitle')

timesource=soup.select('.time-source')[0].contents[0].strip()

result['dt']=datetime.strptime(timesource,'%Y年%m月%d日%H:%M')

result['source']=soup.select('.time-source span a')[0].text

result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]])

result['editor']=soup.select('.article-editor')[0].text.lstrip('责任编辑：')

return result

七、感想

这些天学习下来，Python爬虫思路和套路很明确，主要是我们要对不同网站（反爬等）设计不同爬取路线和方法，但是还是要求自己总结方法和积累知识吧，还有一点自己也希望能把爬虫运用到实际生活或者应用中（如果单纯的抽取一个网页信息其实没多大意思），比如尝试应用到批量下载一个网站的图片或者文件等等，让爬虫为我们服务。

（ps：自己会持续更新和补充内容，也换大家留言补充）

资料
Python爬虫系列（一）初期学习爬虫的拾遗与总结（11.4更） Python爬虫学习系列教程 Python爬虫学习手册
Python爬虫系列（一）初期学习爬虫的拾遗与总结（11.4更）
最近，为了提取裁判文书网的有关信息，自己迈入Python的学习之路，写了快两周的代码，自己写这篇文章总结下踩过的坑...
Python爬虫学习系列教程
转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本：2.7 一、爬虫入门 ...
java爬虫与python爬虫谁更强？
java爬虫与python爬虫的对比： python做爬虫语法更简单，代码更简洁。java的语法比python严格...
Python爬虫入门(01) -- 10行代码实现一个爬虫
跟我学习Python爬虫系列开始啦。带你简单快速高效学习Python爬虫。一、快速体验一个简单爬虫以抓取简书首...
Python网络爬虫实战之十四：Scrapy结合scrapy-s
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...

网友评论

200f41ce32cd:1090235001@qq.com

fa3e62d211c3:2628868165@qq.com

9198e2b981d5:1019364668@qq.com现在还有吗，楼主，感谢！！！

Farewell_lpf:2385512991@qq.com我来晚了吗？还有吗？

findmoon:1286637198@qq.com,百度云

gramthna:2493843344@qq.com谢谢大牛

东东隆东抢:【4、Python3中正则表达式使用方法（这篇文章最棒了，仔细写下来足够了-6.8）】这个链接过期了，能不能重新link一下？

gramthna:@东东隆东抢又不好使了 @致Great

致Great:现在更新了

1db3cafefbf9:ljxax_2008@aliyun.com
谢谢！Python3大全 @致Great

a1af226caa5b:2268246588@qq.com谢谢

丸子爱吃面:百度云账号15850680389谢谢谢谢！

e7827e62aa08:百度云 3712009349 感谢楼主

听阳光:百度账号657172627@qq.com。感谢楼主

cc67ad3aeaba:百度云账号，15931369162😁谢谢

帅气的名_:wxwy_93@163.com 感谢楼主分享

帅气的名_:百度云：you_fack_n 感谢楼主分享

致Great:@帅气的名_ 已分享

9880d9a76dcd:百度名字：3014月

致Great:@elltt 已分享

5abb8bbbf030:百度云账号:15755892587
麻烦楼主了

kingxsx:百度云账号JeffGW 谢谢

致Great:已分享

8c4d594a420b:百度名字w009066

8c4d594a420b:给我发一份吧，wwwsuperman12345@sina.com

致Great:已分享

Yajulia:烦请楼主发python视频：1689804455@qq.com ，灰常感激~

死磕自己:百度账号。夜微凉暧昧不明

致Great:已分享

482f06555e60:好好

致Great:@等风来_54d6

苟且偏安:我和楼主的学习资料看的挺像

致Great:@彪飙嘿嘿，加油

a6530c3ba6f2:1023413172@qq.com谢谢楼主

b734ae7baba4:@致Great 邮箱：747776338@qq.com 百度云：Sai王者

会跳舞的狮子:929069909@qq.com iOS 转Python

我的石斛兰:百度盘：翔宝宝xbbe
谢谢😄

致Great:@我的石斛兰发了

b653d9304f37:百度盘名字：裱跑_裱跑
求分享哈

b653d9304f37:@致Great 谢啦

致Great:发了

W_3637:2978700533@qq.com 谢谢~

致Great:@W_3637 百度名字

W_3637:百度云：18745714559

2e91598bc177:楼主好！感谢你的分享！
百度云：喷火兵加强版

致Great:分享了

不停歇的烟火:18518176681@163.com多谢楼主

石岛蔷薇:2721047181@qq.com🙋楼主辛苦

8c4d594a420b:@石岛蔷薇给你发了嘛？

石岛蔷薇: @致Great 乖张待放谢楼主！

致Great:百度云名字

杰人自擾:rujie0220百度云用户名，谢谢

致Great:分享了

只为你遮风挡雨:百度云：18215492500
邮箱：1587816969@qq.com
谢谢楼主！

只为你遮风挡雨: @致Great 没收到，能不能再发一次，辛苦了

只为你遮风挡雨: @致Great 我待会看一下，谢谢

致Great:@只为你遮风挡雨已发送

我有一个apple:百度云:mrwho001 谢谢了

8c14e6ab1249:百度云:15767102882 谢谢

1e3b1ad0e6a4:805854383@qq.com 谢谢了

致Great:@try_枫百度云账号

82596c2027cb:求pythe视频，邮箱：1604967190@qq.com

致Great:@憧憬_5c0a百度云账号

2301f6496cd7:lplune1319@163.com , 谢谢楼主的分享

致Great:@沐止三日百度云账号

6b5ec22c092a:q1152306089@163.com

致Great:@壹条君你留下百度云账号吧，我邮箱分享好像也失效

b5aea45d202f:1245802509@qq.com 好人一生平安

致Great:已发请查收

致Great:不知道为什么百度云🔗分享失效，大家想要python视频留下邮箱吧📮

fcf4fd87aa83:@致Great 好像木有收到麻烦发到936990525@qq.com 楼主好人~

致Great:@生活如此多娇ss 已发送，请查收

fcf4fd87aa83:zhesi_wang@163.com 谢谢~

200f41ce32cd:1090235001@qq.com
fa3e62d211c3:2628868165@qq.com
9198e2b981d5:1019364668@qq.com现在还有吗，楼主，感谢！！！
Farewell_lpf:2385512991@qq.com我来晚了吗？还有吗？
findmoon:1286637198@qq.com,百度云
gramthna:2493843344@qq.com谢谢大牛
东东隆东抢:【4、Python3中正则表达式使用方法（这篇文章最棒了，仔细写下来足够了-6.8）】这个链接过期了，能不能重新link一下？
gramthna:@东东隆东抢又不好使了 @致Great
致Great:现在更新了
1db3cafefbf9:ljxax_2008@aliyun.com
谢谢！Python3大全 @致Great
a1af226caa5b:2268246588@qq.com谢谢
丸子爱吃面:百度云账号15850680389谢谢谢谢！
e7827e62aa08:百度云 3712009349 感谢楼主
听阳光:百度账号657172627@qq.com。感谢楼主
cc67ad3aeaba:百度云账号，15931369162😁谢谢
帅气的名_:wxwy_93@163.com 感谢楼主分享
帅气的名_:百度云：you_fack_n 感谢楼主分享
致Great:@帅气的名_ 已分享
9880d9a76dcd:百度名字：3014月
致Great:@elltt 已分享
5abb8bbbf030:百度云账号:15755892587
麻烦楼主了
kingxsx:百度云账号JeffGW 谢谢
致Great:已分享
8c4d594a420b:百度名字w009066
8c4d594a420b:给我发一份吧，wwwsuperman12345@sina.com
致Great:已分享
Yajulia:烦请楼主发python视频：1689804455@qq.com ，灰常感激~
死磕自己:百度账号。夜微凉暧昧不明
致Great:已分享
482f06555e60:好好
致Great:@等风来_54d6
苟且偏安:我和楼主的学习资料看的挺像
致Great:@彪飙嘿嘿，加油
a6530c3ba6f2:1023413172@qq.com谢谢楼主
a6530c3ba6f2:1023413172@qq.com谢谢楼主
b734ae7baba4:@致Great 邮箱：747776338@qq.com 百度云：Sai王者
会跳舞的狮子:929069909@qq.com iOS 转Python
我的石斛兰:百度盘：翔宝宝xbbe
谢谢😄
致Great:@我的石斛兰发了
b653d9304f37:百度盘名字：裱跑_裱跑
求分享哈
b653d9304f37:@致Great 谢啦
致Great:发了
W_3637:2978700533@qq.com 谢谢~
致Great:@W_3637 百度名字
W_3637:百度云：18745714559
2e91598bc177:楼主好！感谢你的分享！
百度云：喷火兵加强版
致Great:分享了
不停歇的烟火:18518176681@163.com多谢楼主
石岛蔷薇:2721047181@qq.com🙋楼主辛苦
8c4d594a420b:@石岛蔷薇给你发了嘛？
石岛蔷薇: @致Great 乖张待放谢楼主！
致Great:百度云名字
杰人自擾:rujie0220百度云用户名，谢谢
致Great:分享了
只为你遮风挡雨:百度云：18215492500
邮箱：1587816969@qq.com
谢谢楼主！
只为你遮风挡雨: @致Great 没收到，能不能再发一次，辛苦了
只为你遮风挡雨: @致Great 我待会看一下，谢谢
致Great:@只为你遮风挡雨已发送
我有一个apple:百度云:mrwho001 谢谢了
8c14e6ab1249:百度云:15767102882 谢谢
1e3b1ad0e6a4:805854383@qq.com 谢谢了
致Great:@try_枫百度云账号
82596c2027cb:求pythe视频，邮箱：1604967190@qq.com
致Great:@憧憬_5c0a百度云账号
2301f6496cd7:lplune1319@163.com , 谢谢楼主的分享
致Great:@沐止三日百度云账号
6b5ec22c092a:q1152306089@163.com
致Great:@壹条君你留下百度云账号吧，我邮箱分享好像也失效
b5aea45d202f:1245802509@qq.com 好人一生平安
致Great:已发请查收
致Great:不知道为什么百度云🔗分享失效，大家想要python视频留下邮箱吧📮
fcf4fd87aa83:@致Great 好像木有收到麻烦发到936990525@qq.com 楼主好人~
致Great:@生活如此多娇ss 已发送，请查收
fcf4fd87aa83:zhesi_wang@163.com 谢谢~

Python爬虫系列（一）初期学习爬虫的拾遗与总结（11.4更）

一、环境搭建和工具准备

二、Python基础视频教程

三、Python爬虫视频教程

四、Python爬虫的相关连接

五、正则表达式和BeautifulSoup、PhatomJS +Selenium、urllib、代理的使用

六、自己爬取新浪新闻相关信息的实战

七、感想

相关文章

资料

Python爬虫系列（一）初期学习爬虫的拾遗与总结（11.4更）

Python爬虫学习系列教程

java爬虫与python爬虫谁更强？

Python爬虫入门(01) -- 10行代码实现一个爬虫

Python网络爬虫实战之十四：Scrapy结合scrapy-s

Python网络爬虫实战之七：动态网页爬取案例实战 Seleni

Python网络爬虫实战之八：动态网页爬取案例实战 Seleni

Python网络爬虫实战之九：Selenium进阶操作与爬取京东

Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python学习

Python 开发

Python 运维

Python爬虫

一起学python

数据乐园

python

CODE