一个人人网python爬虫

作者: 顾慎为 | 来源:发表于2015-09-19 22:08 被阅读1662次

01-认识爬虫
一个人人网python爬虫
《Python 3网络爬虫开发实战》高清中文版PDF+源代码免费
Python爬虫代码--人人网照片下载
ubuntu 16.04 安装 Scrapy
用Python爬取猫眼电影排行榜TOP100
学习网址
python爬虫入门：教你在 Chrome 浏览器轻松抓包！
python网络爬虫-爬取网页的三种方式（2）
崔庆才Python 3开发网络爬虫，教程+书籍

background

不知道现在还有多少人在使用人人网，但是在我刚上大学的时候人人网还有开心网还是很火的，然而它们都相继死去了。倒是高中时喜欢玩的QQ空间依旧风生水起。

但是毕竟在人人网上留下了很多东西，将来一不小心人人网关掉了（这种可能我感觉越来越大，毕竟资本市场不会说谎），这些东西丢掉岂不是很可惜？

每天发生的各种琐事，你此时弃之如敝屐，珍之如瑰宝，在不久的将来会化作一串串珍珠，让人凭吊……然而珍珠也会蒙尘，所以还是尽可能地保护吧！

最终代码

RenRenDownload

遇到的一些问题

1.登录

用python实现模拟登录人人网

2.验证码

在登录那篇博客中已提到验证码的问题，实际当中应该是登录时重复多次输错密码导致的。

之后我又发现，在之后爬去好友的个人信息时，人人网对浏览数进行了限制，当对好友的个人页面浏览量累计超过100时，人人网会进行一次验证码识别。

解决思路都是将图片下载下来，将识别后的字符串返回。关于如何确保返回的验证码不是刷新后的新验证码，详见上述博客的最后几段。

3.Python中的中文，Unicode

如果涉及到中文，Python处理字符时经常会报错。
主要学习参考以下几篇博文：

首先是代码中的编码问题，详见第一篇。
刚开始的英文只需要256个字符编码就可以解决问题，即ASCII，可以说是计算机中最基础的编码了吧，记得大学第一门计算机专业课就对它进行了讲解。
然而除了英文之外还有许多其他字符需要进行编码工作，例如中文。但是没有一种编码方式将这些ASCII编码无法涵盖的字符进行统一规则，知道出现了Unicode。如名字一样，每个字符对应的编码都是独一无二的。
但是Unicode只是一个很大的集合，只规定了符号的二进制代码，而没有规定在计算机中应该如何存储。
后来，随着互联网的发展，需要一种统一的编码方式进行通信，UTF-8就是一种Unicode的编码方式，并且是应用最广的。
以上就是三者的关系。

然后是Python中的编码问题。
我们经常遇到两种类型的字符，一种是str，一种是Unicode。
Python认为Unicode才应该是最基础的编码。所以str变Unicode是str.decode('str的编码方式')，而Unicode变str是Unicode.encode('想要变成的编码方式')。
为了防止意外，理想的情况是，从外界输入进来的字符，统一decode成Unicode，在Python代码中统一使用Unicode，在输出至外界时，再根据所需encode成对应的字符。
另外，在Python代码开头，统一声明“# -- coding: utf-8 --”表示该代码内部的str编码方式均为utf-8，方便之后进行转换（虽然python本身进行默认转换时，并不会参考该设置）。

如果出错，一般会有两种报错：
UnicodeDecodeError: 'ascii' codec can't decode byte...
UnicodeEncodeError: 'ascii' codec can't encode characters...
有时候是我们写代码时不小心掉入陷阱，有时候则是python使用默认编码规则转换时出错（例如str和Unicode类型进行拼接，或者进行输入输出）。

通过以下代码可以得知当前python使用的编码规则：
impoort sys
sys.getdefaultencoding()
结果是ascii
我们可以将它进行强制设置（不推荐）：
reload(sys)
sys.setdefaultencoding('utf-8')
这样的话可以避免一些错误。

不同编码转换时，推荐先decode成Unicode，再encode成最终编码。

同样的道理，如果在控制台上发现读取文件是乱码，可查看下是否是编码方式错误，在数据库中，也同样是道理。

有个库可以进行编码识别：chardet。

4.json

爬取过程中，发现有数据是直接返回的json，有数据是html中的一段但是也是json格式。
一般通过如下进行获取，s表示字符串：
dictinfo = json.loads(content)
但是python的json模块要求key值和value值都用双引号，而人人网返回的数据中，key和value中单引号和双引号都有使用，需要更改。然而有的单引号需要变成双引号，有的不需要（只出现了一次：某个value是一段html，其中有一个链接包含http:，如果更改为双引号，则此冒号会造成误解），所以需要挨个字符进行判断。
导入成功后，就可以使用如下方式进行读取：
dictlinfo[key值]

5.MySQL

简单教程：
MySQL 教程
 python操作mysql数据库

使用sql输出table所有项：
select * from table_name into outfile outfile_name.txt

导出表作为原始数据:
在命令行输入
mysqldump -u root -p --tab=directory database_name table_name
其中directory即为导出到的目录

导出sql格式的数据：
在命令行输入
mysqldump -u root -p database_name table_name > output file_name.txt
如果要导出整个database，则去掉上面命令中的table_name。
如果要导出所有database（==备份数据库），则是：
mysqldump -u root -p --all-databases > output file_name.txt

关于在Mysql中使用中文，创建数据库的时候默认的编码方式是latin1，而不是utf-8.
可以通过如下命令来查看对应数据库、表的编码方式：
show create database database_name
show create table table_name
可以通过如下命令来查看创建时使用的默认编码方式：
show variables like '%char%'
如果需要更改，可以执行：
SET NAMES utf8
SET CHARACTER_SET_CLIENT=utf8
SET CHARACTER_SET_RESULTS=utf8
只不过这些设置都是临时的，下次启动后还会还原成原先的情况。

那么要在Mysql中使用中文，首先创建时要设置好编码方式。
数据库默认是latin1：
create database database_name default character set utf8
还需要设置collation即比对方法，合起来如下：
create database database_name default character set utf8 collate utf8_general_ci

同时python连接时也要设置为utf8，可以通过在MySQLdb.connect(**arg)的入参中设置'charset':'utf8'。
另一种方法是连接建立后，执行connect.set_character_set('utf8')。
或者是执行SET NAMES utf8。

参考：
让MySQL支持中文
 mysql 中 character set 与 collation 的点滴理解
 mysql编码详解

最后再来上一次代码：RenRenDownload

01-认识爬虫
一、爬虫介绍什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么爬虫与反爬虫与反反爬虫三角之争网...
一个人人网python爬虫
background 不知道现在还有多少人在使用人人网，但是在我刚上大学的时候人人网还有开心网还是很火的，然而它们...
《Python 3网络爬虫开发实战》高清中文版PDF+源代码免费
《Python 3网络爬虫开发实战》高清中文版PDF+源代码免费下载《Python 3网络爬虫开发实战》高清中文...
Python爬虫代码--人人网照片下载
ubuntu 16.04 安装 Scrapy
写爬虫首选Python，Python爬虫框架首选Scrapy。-- 沃滋基索德 Scrapy官网在醒目的地方告...
用Python爬取猫眼电影排行榜TOP100
参考资料《Python3网络爬虫开发实践》，作者崔庆才这篇博客参考了崔庆才的《Python3网络爬虫开发实践》有...
学习网址
Python开源爬虫项目代码：抓取淘宝、京东、QQ、知网数据 scrapy_jingdong[9]- 京东爬虫。基...
python爬虫入门：教你在 Chrome 浏览器轻松抓包！
python爬虫入门：什么是爬虫，怎么玩爬虫？我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网...
python网络爬虫-爬取网页的三种方式（2）
还在用BeautifulSoup写爬虫？out了! 用lxml&xpath！从上一篇python网络爬虫-爬取网...
崔庆才Python 3开发网络爬虫，教程+书籍
本书《Python3网络爬虫开发实战》全面介绍了利用 Python3 开发网络爬虫的知识，书中首先详细介绍了各种类...

网友评论

行者无疆007:楼主，能否做一个微信公众号的爬虫？我想用rss订阅公众号

bb2019f81628:博主您好，我用了您的这个脚本抓取，在抓取相册的时候有的能抓下来，但有的只能抓到一个1k多的JPG文件。

内容是
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd";>
<HTML><HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
<TITLE>403拒绝访问</TITLE>
<STYLE type="text/css"></STYLE>
</HEAD><BODY>
<BR><h1>拒绝访问</h1>
<P>本缓存服务器管理员：<A HREF="mailto:wssupport@wangsu.com">wssupport@wangsu.com</A>
<P>Via:PShljhebyd2sa52:4 (Cdn Cache Server V2.0)</P>

<br>
<br>

<TITLE>ERROR: The requested URL could not be retrieved</TITLE>
<STYLE type="text/css"></STYLE>
</HEAD><BODY>
<H1>ERROR</H1>
<H2>The requested URL could not be retrieved</H2>
<HR noshade size="1px">
<P>
While trying to retrieve the URL:
<A （后面是图片地址，不贴了）

然后，程序继续运行，抓取完了之后显示：
all album save successfully, time: 0:00:44.763000

Traceback (most recent call last):
File "D:\src\Main.py", line 54, in <module>
Main()
File "D:\src\Main.py", line 40, in Main
status.work()
File "D:\src\Status.py", line 76, in work
self.saveContent()
File "D:\src\Status.py", line 65, in saveContent
f.write(comments.work())
File "D:\src\Comment.py", line 61, in work
result = self.setContent(self.spider.getContent(self.getCommentUrl(offset)))
File "D:\src\Comment.py", line 33, in setContent
for item in dictinfo['comments']:
KeyError: 'comments'

之后程序自动终止了。Blog文件夹里是空的。但是照片文件夹里的评论是有的。

请问博主这两个问题怎么解决？感激不尽！谢谢！

顾慎为:第一个问题是CDN缓存服务器报403，应该是权限问题。
第二个问题是字典dictinfo中并没有键comments导致，这个地方当初写得不专业，应该使用get方法进行预判，就不会出现这种错误了。

2c7e1013c27c:程序运行时在
File "Main.py", line 52
print 'all have been done, time: ', d2 - d1
（在第二引号的位置）^
SyntaxError: Missing parentheses in call to 'print'
请问我是哪里搞错了。

顾慎为:@小泽再一沐我使用的是python2.7，不适用于python3.x上，需要转换下。

94d265b365c7:我以前这种Python写过爬虫，但是验证码一直都不会处理

顾慎为:@亚坤儿确保验证码是最新的就可以了，剩下的就是下载下来手工输入。我这里没有做自动识别。

行者无疆007:楼主，能否做一个微信公众号的爬虫？我想用rss订阅公众号
bb2019f81628:博主您好，我用了您的这个脚本抓取，在抓取相册的时候有的能抓下来，但有的只能抓到一个1k多的JPG文件。

内容是
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd";>
<HTML><HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
<TITLE>403拒绝访问</TITLE>
<STYLE type="text/css"></STYLE>
</HEAD><BODY>
<BR><h1>拒绝访问</h1>
<P>本缓存服务器管理员：<A HREF="mailto:wssupport@wangsu.com">wssupport@wangsu.com</A>
<P>Via:PShljhebyd2sa52:4 (Cdn Cache Server V2.0)</P>

<br>
<br>

<TITLE>ERROR: The requested URL could not be retrieved</TITLE>
<STYLE type="text/css"></STYLE>
</HEAD><BODY>
<H1>ERROR</H1>
<H2>The requested URL could not be retrieved</H2>
<HR noshade size="1px">
<P>
While trying to retrieve the URL:
<A （后面是图片地址，不贴了）

然后，程序继续运行，抓取完了之后显示：
all album save successfully, time: 0:00:44.763000

Traceback (most recent call last):
File "D:\src\Main.py", line 54, in <module>
Main()
File "D:\src\Main.py", line 40, in Main
status.work()
File "D:\src\Status.py", line 76, in work
self.saveContent()
File "D:\src\Status.py", line 65, in saveContent
f.write(comments.work())
File "D:\src\Comment.py", line 61, in work
result = self.setContent(self.spider.getContent(self.getCommentUrl(offset)))
File "D:\src\Comment.py", line 33, in setContent
for item in dictinfo['comments']:
KeyError: 'comments'

之后程序自动终止了。Blog文件夹里是空的。但是照片文件夹里的评论是有的。

请问博主这两个问题怎么解决？感激不尽！谢谢！
顾慎为:第一个问题是CDN缓存服务器报403，应该是权限问题。
第二个问题是字典dictinfo中并没有键comments导致，这个地方当初写得不专业，应该使用get方法进行预判，就不会出现这种错误了。
2c7e1013c27c:程序运行时在
File "Main.py", line 52
print 'all have been done, time: ', d2 - d1
（在第二引号的位置）^
SyntaxError: Missing parentheses in call to 'print'
请问我是哪里搞错了。
顾慎为:@小泽再一沐我使用的是python2.7，不适用于python3.x上，需要转换下。
94d265b365c7:我以前这种Python写过爬虫，但是验证码一直都不会处理
顾慎为:@亚坤儿确保验证码是最新的就可以了，剩下的就是下载下来手工输入。我这里没有做自动识别。

一个人人网python爬虫

background

最终代码

遇到的一些问题

1.登录

2.验证码

3.Python中的中文，Unicode

4.json

5.MySQL

相关文章

01-认识爬虫

一个人人网python爬虫

《Python 3网络爬虫开发实战》高清中文版PDF+源代码免费

Python爬虫代码--人人网照片下载

ubuntu 16.04 安装 Scrapy

用Python爬取猫眼电影排行榜TOP100

学习网址

python爬虫入门：教你在 Chrome 浏览器轻松抓包！

python网络爬虫-爬取网页的三种方式（2）

崔庆才Python 3开发网络爬虫，教程+书籍

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python基础

爬虫

Python

程序员

Pythoner集中营

Python语言与信息数据获取和机器学习

Python应用实战

trivial