简单爬虫就是爬取静态网页(比如Nature期刊的文献信息),然后用BeautifulSoup解析html代码,获取所需信息!
详细可参考莫凡python爬虫系列课程,这里只列举一些主要的代码
Python包
有些不一定是必须的,但是会让你的爬虫操作更舒服
import numpy as np
from urllib.request import urlopen
from bs4 import BeautifulSoup
import time
import os
import datetime
from console_progressbar import ProgressBar
from colored import fg, bg, attr
import wget
import csv
打开网页
根据给定url打开网页,然后把html代码喂给BeautifulSoup获取甜汤😎
html = urlopen(url_nature).read().decode('utf-8')
soup_home=BeautifulSoup(html,features='lxml')
解析网页
接下来就是BeautifulSoup的任务了,获取元素或者标签的数据,当然这个过程中要是加入正则表达式(这是另一个话题了)进行匹配会更高效!
比如获取nature页面内的所有专业分类的url,主要就是find_all
,后面跟标签,然后也可以再geng
alldata_all_subject=sout_home.find_all('a',{'data-track-action':'all subjects'}) #在官网上打开主页查看网页html结构获得
url_all_subject=url_nature+alldata_all_subject[0]['href']
print(C_GREEN+'nature all subject url found: ',C_DEFAULT,url_all_subject)
网友评论