Python青苔计划（七）简单爬虫

作者: 请万万喝水 | 来源:发表于2017-04-30 09:48 被阅读0次

Python青苔计划（七）简单爬虫
各语言简单爬虫
Python网络爬虫
java爬虫与python爬虫谁更强？
Python爬虫入门(01) -- 10行代码实现一个爬虫
Python青苔计划（一）
大师兄的Python学习笔记(二十五）: 爬虫（六）
手工打造分布式爬虫(Python)
简单Python小爬虫
一篇文章学习 Python 网络爬虫

青苔计划

探索了有一阵子，写爬虫时却无从下手，今天琢磨了一个小爬虫，于我而言跟确切的说，我实现了抽取网站html代码，然后在代码上搜索的功能，这样算爬虫吗？！

自我感觉学习似乎到了转折点，站在放弃和坚持中线，锚点显得更加重要，这篇文章就是锚点

运行环境：Python3.6.1

使用模块BeautifulSoup4，requests

提取简书7日热门第一页文章的标题和作者
提取思路：按照各个对象标签属性的不同进行提取

文章名称

文章名称
作者的昵称

作者昵称标签

代码如下（附解析）：

#这里有一个库，模块，函数的区分
#导入模块
from urllib.request import urlopen    #从urllib.request引入urlopen函数
from bs4 import BeautifulSoup

#抓取网页并处理
html=urlopen("http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop")  #打开目标链接
bsObj=BeautifulSoup(html.read(),"lxml")  #用BeautifulSoup对网页进行处理，注：Python3会主动建议添加‘lxml’
x=bsObj.findAll(class_="title",target="_blank")  #查找所有文章标题
y=bsObj.findAll(class_="blue-link",target="_blank")  #查找所有作者

#将数据整理进入列表
a=[] #分别建立用于储存文章标题和作者的列表
b=[]
for x1 in x:
    k=x1.get_text() #去除查找到的语句中的链接和标签
    a.append(k) #将文章标题加入a列表中
for y1 in y:
    m=y1.get_text()
    b.append(m)

#遍历输出
n=0
for k in range(1,len(a)+1): #循环遍历列表并输出
    print('《',a[n],'》'"  ",b[n])
    n+=1

输出结果(简书七日热门第一页)：

C:\python36\python.exe C:/Users/Administrator/PycharmProjects/untitled2/hh.py
《 我也是第一次当 女朋友 》   不凡大叔
《 30个孤独的夜晚，我为你准备了30段独白和30张照片 》   有备而来的路人甲
《 为什么我可以靠阅读挣钱，你不行 》   彭小六
《 生而为穷人，我很抱歉！ 》   衷曲无闻_
《 《人民的名义》：寒门再难出贵子 》   墨客书院
《 拿了一年的1.5K，可我没打算辞职 》   可可为
《 人潮拥挤，而我刚好遇见你 》   朝歌晚丽
《 希望你那么忙，做的都是自己热爱的事 》   有备而来的路人甲
《 过去的一年里，我偷拍了100个一眼忘不掉的陌生人（一） 》   有备而来的路人甲
《 家是最好的美颜塑身场所，美颜塑身DIY看这一篇就够了 》   fly九小仙儿
《 你好，西安 》   妄劫歌
《 一个人旅行走遍全国32个省是什么样的体验（附一个人旅行攻略） 》   潘帕斯雄鹰
《 人物专题征文公告|写出你心中最爱的那个作家 》   乔克儿
《 拼了命，我终于活出了父母讨厌的样子 》   沈万九
《 《人民的名义》之祁同伟：平民孩子想登天，一靠不服二靠干！ 》   妖明岳
《 我喜欢你，认真且怂，从一而终 》   阿念姑娘
《 大学两年读了200多本书，向你推荐这7本 》   瓯南
《 如何在三个月内健康自然地变美？ 》   二十初仲夏的树
《 坚持写手帐135天，生活发生了哪些改变？ 》   萌薇
《 #青春不一YOUNG# 青春映象节参赛规则 》   我是简小妹

Process finished with exit code 0