美文网首页Python爬虫作业
Python青苔计划(七)简单爬虫

Python青苔计划(七)简单爬虫

作者: 请万万喝水 | 来源:发表于2017-04-30 09:48 被阅读0次
    青苔计划

    探索了有一阵子,写爬虫时却无从下手,今天琢磨了一个小爬虫,于我而言跟确切的说,我实现了抽取网站html代码,然后在代码上搜索的功能,这样算爬虫吗?!

    自我感觉学习似乎到了转折点,站在放弃和坚持中线,锚点显得更加重要,这篇文章就是锚点

    • 运行环境:Python3.6.1
    • 使用模块BeautifulSoup4,requests

    提取简书7日热门第一页文章的标题和作者
    提取思路:按照各个对象标签属性的不同进行提取

    1. 文章名称


      文章名称
    2. 作者的昵称


      作者昵称标签

    代码如下(附解析):

    #这里有一个库,模块,函数的区分
    #导入模块
    from urllib.request import urlopen    #从urllib.request引入urlopen函数
    from bs4 import BeautifulSoup
    
    #抓取网页并处理
    html=urlopen("http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop")  #打开目标链接
    bsObj=BeautifulSoup(html.read(),"lxml")  #用BeautifulSoup对网页进行处理,注:Python3会主动建议添加‘lxml’
    x=bsObj.findAll(class_="title",target="_blank")  #查找所有文章标题
    y=bsObj.findAll(class_="blue-link",target="_blank")  #查找所有作者
    
    #将数据整理进入列表
    a=[] #分别建立用于储存文章标题和作者的列表
    b=[]
    for x1 in x:
        k=x1.get_text() #去除查找到的语句中的链接和标签
        a.append(k) #将文章标题加入a列表中
    for y1 in y:
        m=y1.get_text()
        b.append(m)
    
    #遍历输出
    n=0
    for k in range(1,len(a)+1): #循环遍历列表并输出
        print('《',a[n],'》'"  ",b[n])
        n+=1
    

    输出结果(简书七日热门第一页):

    C:\python36\python.exe C:/Users/Administrator/PycharmProjects/untitled2/hh.py
    《 我也是第一次当 女朋友 》   不凡大叔
    《 30个孤独的夜晚,我为你准备了30段独白和30张照片 》   有备而来的路人甲
    《 为什么我可以靠阅读挣钱,你不行 》   彭小六
    《 生而为穷人,我很抱歉! 》   衷曲无闻_
    《 《人民的名义》:寒门再难出贵子 》   墨客书院
    《 拿了一年的1.5K,可我没打算辞职 》   可可为
    《 人潮拥挤,而我刚好遇见你 》   朝歌晚丽
    《 希望你那么忙,做的都是自己热爱的事 》   有备而来的路人甲
    《 过去的一年里,我偷拍了100个一眼忘不掉的陌生人(一) 》   有备而来的路人甲
    《 家是最好的美颜塑身场所,美颜塑身DIY看这一篇就够了 》   fly九小仙儿
    《 你好,西安 》   妄劫歌
    《 一个人旅行走遍全国32个省是什么样的体验(附一个人旅行攻略) 》   潘帕斯雄鹰
    《 人物专题征文公告|写出你心中最爱的那个作家 》   乔克儿
    《 拼了命,我终于活出了父母讨厌的样子 》   沈万九
    《 《人民的名义》之祁同伟:平民孩子想登天,一靠不服二靠干! 》   妖明岳
    《 我喜欢你,认真且怂,从一而终 》   阿念姑娘
    《 大学两年读了200多本书,向你推荐这7本 》   瓯南
    《 如何在三个月内健康自然地变美? 》   二十初仲夏的树
    《 坚持写手帐135天,生活发生了哪些改变? 》   萌薇
    《 #青春不一YOUNG# 青春映象节参赛规则 》   我是简小妹
    
    Process finished with exit code 0
    

    相关文章

      网友评论

        本文标题:Python青苔计划(七)简单爬虫

        本文链接:https://www.haomeiwen.com/subject/eunttxtx.html