美文网首页论文
SpiderMan(一)简单爬虫

SpiderMan(一)简单爬虫

作者: 九天学者 | 来源:发表于2018-11-12 04:15 被阅读155次

简单爬虫就是爬取静态网页(比如Nature期刊的文献信息),然后用BeautifulSoup解析html代码,获取所需信息!

详细可参考莫凡python爬虫系列课程,这里只列举一些主要的代码

Python包

有些不一定是必须的,但是会让你的爬虫操作更舒服

import numpy as np
from urllib.request import urlopen
from bs4 import BeautifulSoup
import time
import os
import datetime
from console_progressbar import ProgressBar
from colored import fg, bg, attr
import wget
import csv

打开网页

根据给定url打开网页,然后把html代码喂给BeautifulSoup获取甜汤😎

html = urlopen(url_nature).read().decode('utf-8')
soup_home=BeautifulSoup(html,features='lxml')

解析网页

接下来就是BeautifulSoup的任务了,获取元素或者标签的数据,当然这个过程中要是加入正则表达式(这是另一个话题了)进行匹配会更高效!

比如获取nature页面内的所有专业分类的url,主要就是find_all,后面跟标签,然后也可以再geng

alldata_all_subject=sout_home.find_all('a',{'data-track-action':'all subjects'}) #在官网上打开主页查看网页html结构获得
url_all_subject=url_nature+alldata_all_subject[0]['href']
print(C_GREEN+'nature all subject url found: ',C_DEFAULT,url_all_subject)

相关文章

  • SpiderMan(一)简单爬虫

    简单爬虫就是爬取静态网页(比如Nature期刊的文献信息),然后用BeautifulSoup解析html代码,获取...

  • scp_merger

    scp_spider项目 这个项目是爬虫模块,利用java语言编写,使用框架spiderman, gitee上有样...

  • 各语言简单爬虫

    各语言简单爬虫 Python 简单爬虫 golang简单爬虫

  • Spiderman

    ‘"瓦格纳式表演"的一般理论:在《漂泊的荷兰人》的结尾,当被冒犯的神秘的船长公开宣布自己是"漂泊的荷兰人",在海上...

  • 《spiderman》

    年少无知的时候我觉得托比蛛是我最不中意地版本。到了后来我都渐渐忘记了剧情,只记得我不太爱这个版本。我更喜欢加菲那版...

  • Spiderman

    它是一部著名的电影。影片主要讲述了一位名叫彼得·帕克的学生被一只转基因蜘蛛咬到以后,具有了超人的力量,他发誓要用他...

  • SpiderMan(二)模拟人类爬虫: Selenium

    作者在Nature 2018关键词这个帖子里面所用到的数据就是用python写了一个简单的爬虫程序,几分钟内就获取...

  • 马里移民变身“蜘蛛侠” 徒手连爬四楼救下悬空儿童

    Mamoudou Gassama: Mali 'spiderman' wows France with Paris...

  • 一个简单的网络爬虫

    什么是网络爬虫 简单的说,网络爬虫就是一种自动抓去互联网上资源的程序。 简单的网络爬虫 简单的网络爬虫原理就是使用...

  • python-爬虫基础(慕课网)

    二.爬虫简介以及爬虫的技术价值 2-1:爬虫是什么? 2-2:爬虫技术的价值? 三.简单爬虫架构 3-1:简单爬虫...

网友评论

    本文标题:SpiderMan(一)简单爬虫

    本文链接:https://www.haomeiwen.com/subject/oihyxqtx.html