Python测试题-爬取糗百文本和简书首页

作者: Ssop | 来源:发表于2017-06-12 15:05 被阅读0次

Python测试题-爬取糗百文本和简书首页
Python 爬虫入门(一)——爬取糗百
Python -- 素数，简书和糗百爬虫
爬取糗百
使用 Python 爬取简书网的所有文章
python 爬取简书首页文章标题和简介
Python作业20170522：素数+糗百+简书首页
使用Scrapy框架爬取简书首页文章（Selenium）
爬虫 - 收藏集 - 掘金
Python爬取百度首页

第一题：求100以内的素数

素数，所谓素数是指除了1和它本身以外，不能被任何整数整除的数，例如17就是素数，因为它不能被2~16的任一整数整除。
根据题意，代码如下：

# 求100以内的素数
n = 100
for i in range(0, n + 1):
    if i >= 2:
        #根据题意，只要被小于自己（不包含1和自己）的数整除的就不能打印，那也就是说循环到自己还没有被整除即可打印
        for k in range(2, i + 1):
            if k == i:
                print i,
            elif i % k == 0:
                break
            else:
                continue

运行结果

2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97

Process finished with exit code 0

第二题：爬虫练习
2.1）糗百 http://www.qiushibaike.com/text/
包括：作者，性别，年龄，段子内容，好笑数，评论数
代码如下：

import urllib2
from bs4 import BeautifulSoup


domain = 'http://www.qiushibaike.com/text/page/'

def getQiushi(pn):
    for i in range(1, pn+1):
        request = urllib2.Request(domain + str(i))
        request.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
        }
        html = urllib2.urlopen(request).read()
        #print html
        soup = BeautifulSoup(html,'html.parser')
        result = soup.select('.article')
        for child  in result:
            #print child
            #child = str(child).replace('<br>','')
            #soup = BeautifulSoup(child,'html.parser')
            author =  child.select('h2')[0].string
            #print author
            if u'匿名用户' in author:
                age = 'None'
                sex = 'None'
            else:
                age = child.select('div .articleGender')[0].string
                sex_string = child.select('div .articleGender')[0].attrs['class'][1]
                if sex_string == 'manIcon':
                    sex = '男'
                else:
                    sex = '女'
            content_list = child.select('.content')[0].get_text()
            haoxiao = child.select('span > .number')[0].string
            comment = child.select('a > .number')[0].string
            print author,age,sex,content_list,haoxiao,comment


if __name__ == '__main__':
    getQiushi(13)

运行结果：

某年某月： 94 女 
下午下班后，赶时间去买东西，刚走出门没两步，就看到辆酷似邻居的车过来，然后我就习惯性的点一下头，挥一下手。车子在我旁边停下来，打开车窗后，我仔细一看是不认识的人，然后那人问我这条道是不是死胡同？为了化解尴尬，只好顺势的继续边挥手边说：是的，不通车不通车…
1302 11
傲世哼哈 30 男 
单位一同事新婚少妇，老吹她老公多牛逼，有天我忍不住了:天天你老公，你不替他吹会死啊！女同事立马回道:我不吹我老公难道替你吹啊！～好像很有道理，我尽无言以对～就是，边上那猥琐男你笑那么淫荡是什么意思呢
157 157
天阶夜色凉如水！ 34 女 
应该是三岁以前的事，那时候还没有我妹妹（妹正好比我小三岁）。都说人一般五岁之前的记忆几乎为零，但那件事直到现在还记忆犹新：家里养了几只大鹅，农村里的应该都知道，鹅很凶滴……家里的鹅是圈养的，平时我总是喜欢拿棍子去打它们，一般都是白天，有时候还把圈的门打开，跑到里面去打，每次都被鹅啄得哭，不知道被爷爷“救”过多少次，越是受了它们“欺负”，就越是要去打。开始作死了……有天晚上，家里人都在堂屋看电视，我一个人搭凳子打开外面的灯，推开门又跑到圈里面去打鹅，可想而知，我被那群大鹅“围殴”，啄得我作死的哭，...
查看全文
1083 28
...

总结：目前都是用轻量级的bs4模块爬取的，中间调试遇到了几次问题，比如遇到匿名用户就没有性别和年龄的问题还有内容字段中取值遇到中间有br标签的问题，导致我string方法不能取到内容，这个问题在下面一个爬虫例子中我也有遇到，目前我用的get_text()方法取得当前tag下所有文本，确定是会有多余的换行还需要replace处理下，以后再学习下别的模块是否有更方便的做法。

2.2）简书首页文章信息 http://www.jianshu.com/
包括：标题，作者，发表时间，阅读量，评论数，点赞数，打赏数，所投专题
代码如下：

import urllib2
from bs4 import BeautifulSoup


domain = 'http://www.jianshu.com'

def getConent(url):
    req = urllib2.Request(domain)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
    }
    req.headers = headers
    html = urllib2.urlopen(req).read()
    soup = BeautifulSoup(html.replace('\n',''),'html.parser')
    notelist = soup.select('ul.note-list')[0].contents
    #print notelist
    for child in notelist[1:-1]:
        #print child
        title = child.select('a.title')[0].string
        #author = child.select('div.name')[0].contents[1].string
        author = child.select('div.name')[0].get_text().replace('\n','')
        time = child.select('span.time')[0].attrs['data-shared-at']
        meta = child.select('div.meta')[0].get_text().split()
        if len(meta) == 4:
            tag,read,comment,like = meta
            money = 0
        elif len(meta) ==5:
            tag, read, comment, like,money = meta
        # title = child.select('a.title')[0].string
        print title,author,time,read,comment,like,money,tag

if __name__ == '__main__':
    getConent(domain)

运行结果:

亲亲抱抱举高高，为什么中国女生那么娇贵？  狸小猫   2017-06-11T08:00:49+08:00 9104 225 223 2 社会热点
“你到底要不要俗气的幸福” | 为什么越来越不想结婚  新世相   2017-06-12T11:50:30+08:00 1737 16 37 0 心理
美国 第一篇 初到美国的大开眼界  单车环球陈桂权   2017-06-12T08:33:09+08:00 1942 17 79 4 旅行·在路上
高考结束，写给要高三的表妹  五虎谷的阿格   2017-06-11T17:58:35+08:00 4 12 1 0 899
君联资本王建庆：创业公司常面临的三类问题 |捕手志  捕手志   2017-06-11T02:14:05+08:00 515 1 27 0 职场
收藏 | 做了3个月自媒体副主编，我总结了这42个审稿自问题目  NJ安可   2017-06-06T09:24:23+08:00 733 18 68 2 谈写作
大奖寻人 | 寻找能看到音乐的人，一起画音乐  简书活动精选   2017-06-12T11:05:52+08:00 733 18 68 2 谈写作
欧洲游散记【2】  树伟   2017-06-12T08:47:28+08:00 9 20 4 0 388
阶层固化的口号为何都是80们后提出？  纽约老李校长   2017-06-11T16:51:03+08:00 1681 33 40 1 想法
写给新人的一封信  ThoughtWorks中国   2017-06-12T14:42:41+08:00 54 0 1 0 职场菜鸟成长记
技术合伙人如何保护自己的利益  范凯   2017-06-12T13:53:21+08:00 10 0 0 0 @IT·互联网
徐敏:红色老人 范 明  布衣沙弥   2017-06-11T22:52:41+08:00 10 0 0 0 @IT·互联网
你坚持的合群，不过是孤独的开始  少校十三   2017-06-12T11:01:06+08:00 379 15 32 1 想法
7个趣味经济学小故事，你听过几个？  云掌君   2017-06-11T17:50:41+08:00 632 3 53 1 财经·投资·理财
旅行攻略 | 10天9夜2000元玩转云南  上野枝子   2017-06-11T23:58:54+08:00 1125 23 70 0 旅行·在路上
简书用户数据第一篇  浪费了昨天   2017-06-11T23:41:56+08:00 315 11 18 3 @IT·互联网
知识付费这件小事  小鹅通的小饼   2017-06-09T23:30:26+08:00 25 68 16 0 3642
只是睡过，不曾爱过  朝歌晚丽   2017-06-11T17:43:21+08:00 2496 62 54 0 谈谈情，说说爱
在别人的故事里，看到了自己  无戒   2017-06-12T10:48:34+08:00 1403 14 48 0 谈谈情，说说爱
『一元短篇小说训练营』第三期正式招募｜专注你的故事创作  一元亦有用   2017-06-12T12:33:23+08:00 757 14 23 1 短篇小说

总结：与上面一例的爬虫代码大同小异，主要在数据的抓取上，个人感觉代码应该会有较多bug，还需加强学习。