探索了有一阵子,写爬虫时却无从下手,今天琢磨了一个小爬虫,于我而言跟确切的说,我实现了抽取网站html代码,然后在代码上搜索的功能,这样算爬虫吗?!
自我感觉学习似乎到了转折点,站在放弃和坚持中线,锚点显得更加重要,这篇文章就是锚点
- 运行环境:Python3.6.1
- 使用模块BeautifulSoup4,requests
提取简书7日热门第一页文章的标题和作者
提取思路:按照各个对象标签属性的不同进行提取
-
文章名称
文章名称 -
作者的昵称
作者昵称标签
代码如下(附解析):
#这里有一个库,模块,函数的区分
#导入模块
from urllib.request import urlopen #从urllib.request引入urlopen函数
from bs4 import BeautifulSoup
#抓取网页并处理
html=urlopen("http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop") #打开目标链接
bsObj=BeautifulSoup(html.read(),"lxml") #用BeautifulSoup对网页进行处理,注:Python3会主动建议添加‘lxml’
x=bsObj.findAll(class_="title",target="_blank") #查找所有文章标题
y=bsObj.findAll(class_="blue-link",target="_blank") #查找所有作者
#将数据整理进入列表
a=[] #分别建立用于储存文章标题和作者的列表
b=[]
for x1 in x:
k=x1.get_text() #去除查找到的语句中的链接和标签
a.append(k) #将文章标题加入a列表中
for y1 in y:
m=y1.get_text()
b.append(m)
#遍历输出
n=0
for k in range(1,len(a)+1): #循环遍历列表并输出
print('《',a[n],'》'" ",b[n])
n+=1
输出结果(简书七日热门第一页):
C:\python36\python.exe C:/Users/Administrator/PycharmProjects/untitled2/hh.py
《 我也是第一次当 女朋友 》 不凡大叔
《 30个孤独的夜晚,我为你准备了30段独白和30张照片 》 有备而来的路人甲
《 为什么我可以靠阅读挣钱,你不行 》 彭小六
《 生而为穷人,我很抱歉! 》 衷曲无闻_
《 《人民的名义》:寒门再难出贵子 》 墨客书院
《 拿了一年的1.5K,可我没打算辞职 》 可可为
《 人潮拥挤,而我刚好遇见你 》 朝歌晚丽
《 希望你那么忙,做的都是自己热爱的事 》 有备而来的路人甲
《 过去的一年里,我偷拍了100个一眼忘不掉的陌生人(一) 》 有备而来的路人甲
《 家是最好的美颜塑身场所,美颜塑身DIY看这一篇就够了 》 fly九小仙儿
《 你好,西安 》 妄劫歌
《 一个人旅行走遍全国32个省是什么样的体验(附一个人旅行攻略) 》 潘帕斯雄鹰
《 人物专题征文公告|写出你心中最爱的那个作家 》 乔克儿
《 拼了命,我终于活出了父母讨厌的样子 》 沈万九
《 《人民的名义》之祁同伟:平民孩子想登天,一靠不服二靠干! 》 妖明岳
《 我喜欢你,认真且怂,从一而终 》 阿念姑娘
《 大学两年读了200多本书,向你推荐这7本 》 瓯南
《 如何在三个月内健康自然地变美? 》 二十初仲夏的树
《 坚持写手帐135天,生活发生了哪些改变? 》 萌薇
《 #青春不一YOUNG# 青春映象节参赛规则 》 我是简小妹
Process finished with exit code 0
网友评论