xiaolinBot（Twitter笑话集锦爬虫Bot） Ste

作者: BONFY | 来源:发表于2016-05-17 09:19 被阅读562次

xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
scrapy-settings
象|微博“bot”传播现象分析
爬虫文件中settings文件中的参数作用
利用twitter外贸推广必看，Twitter推广方法大集锦
facebook、twitter、facebook登录、what
笑话集锦

Step1 - 最简爬虫

前文提要

xiaolinBot（Twitter笑话集锦爬虫Bot） Step0－概述

环境准备

Python3.5 最好使用venv

另外需要两个必要的库：

requests : 一个封装了HTTP服务的python库
pyquery : 类似Jquery，使用非常方便

$ pip install requests
$ pip install pyquery

开始

实现第一个应用

我们第一个应用实现的功能主要如下：

访问一个页面,这里我们以糗事百科(http://www.qiushibaike.com/) 为例
获得页面的内容
进行简单的处理，获得我们需要的内容


import requests
from pyquery import PyQuery as pq

__author__ = 'BONFY CHEN <foreverbonfy@163.com>'


SITE = 'http://www.qiushibaike.com/'
r = requests.get(SITE)
assert r.status_code == 200
d = pq(r.text)
contents = d("div .article")
for item in contents:
    i = pq(item)
    content = i("div .content").text()
    print(content)

结果

简单分析

利用 requests.get 获得页面
assert 断言，如果网络问题访问不到就退出
contents 利用 pyquery 获得所有文章后续读取 div class ＝ "content" 的为文本内容（这里没有处理图片后续的讲解中会完善）
print 输出

完整代码

补充模仿浏览器的Headers,详情见 https://github.com/bonfy/xiaolinBot

欢迎关注及一起交流

下一篇已发布： xiaolinBot（Twitter笑话集锦爬虫Bot） Step2－代码优化

xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
Step1 - 最简爬虫前文提要 xiaolinBot（Twitter笑话集锦爬虫Bot） Step0－概述环...
xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
Step2 - 代码优化前文提要 xiaolinBot（Twitter笑话集锦爬虫Bot） Step0－概述 x...
xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
Step3 - 适配器前文提要 xiaolinBot（Twitter笑话集锦爬虫Bot） Step0－概述 xi...
xiaolinBot（Twitter笑话集锦爬虫Bot） Ste
Step0 - 概述功能描述看到Twitter上有好多定时更新笑话集锦的帐号，觉得自己也可以试试，就申请了 @...
scrapy-settings
项目名称BOT_NAME = '' 爬虫存储的文件路径SPIDER_MODULES = [''] 创建爬虫文件的模...
象|微博“bot”传播现象分析
定义 bot，最早起源于Twitter，是机器人robot的简称。最早的一批bot账号是真的是由“机器人”发稿，设...
爬虫文件中settings文件中的参数作用
项目名称 BOT_NAME = 'qidianwang' 爬虫文件路径 SPIDER_MODULES = ['qi...
利用twitter外贸推广必看，Twitter推广方法大集锦
外贸推广必看，不看后悔哈，Twitter推广方法大集锦 Twitter对许多人来说都感觉他像是facebook的二...
facebook、twitter、facebook登录、what
facebook、twitter、facebook 登录、whatsapp 分享、微信分享几个概念爬虫所谓爬...
笑话集锦
一日看见大师，便请求算一卦：“我这有钱有车，咋感觉那么空虚呢？” 大师拿起打火机把我衣服点着了，我赶紧吹灭了：“大...

xiaolinBot（Twitter笑话集锦爬虫Bot） Ste

Step1 - 最简爬虫

前文提要

环境准备

开始

实现第一个应用

结果

简单分析

完整代码

相关文章

xiaolinBot（Twitter笑话集锦爬虫Bot） Ste

xiaolinBot（Twitter笑话集锦爬虫Bot） Ste

xiaolinBot（Twitter笑话集锦爬虫Bot） Ste

xiaolinBot（Twitter笑话集锦爬虫Bot） Ste

scrapy-settings

象|微博“bot”传播现象分析

爬虫文件中settings文件中的参数作用

利用twitter外贸推广必看，Twitter推广方法大集锦

facebook、twitter、facebook登录、what

笑话集锦

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

测试开发

爬虫

程序员

首页投稿（暂停使用，暂停投稿）

python爬虫

Python Can Do This