Python文献爬虫②

作者: 研究僧小蓝哥 | 来源:发表于2019-11-21 18:10 被阅读0次

Python文献爬虫①
Python文献爬虫②
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath
Python网络爬虫（三）- 爬虫进阶
Python网络爬虫（六）- Scrapy框架

得到上次爬虫的结果以后，需要完成的是把每篇的摘要都爬取下来。先前爬取的表格需要做一丢丢修改，只需要文章标题和URL链接，就像这样：

图片来子小蓝哥

下面就是哗哗哗写代码了。

import time
import csv
import openpyxl
import os
import requests
from bs4 import BeautifulSoup

time_start = time.time()

print(os.getcwd())

csv_file=open('clean.csv','r',newline='')
reader=csv.reader(csv_file)

user_agent = {
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}

title_link_result = openpyxl.Workbook()
sheet = title_link_result.active
sheet.title = 'CNKI结果'
col_name = ['link','abstract']

url_list = []
for i in reader:
    url_list.append(i)

sheet.append(col_name)

result = []

for i in url_list[0:len(url_list)]:

    url = i[1]
    res = requests.get(url)
    soup = BeautifulSoup(res.text,'html.parser')

    try:
        items = soup.find('div',id = 'content')
        abstract = items.find('div',class_='xx_font').text
    except AttributeError:
        abstract = 'None'

    sheet.append([url,abstract])
    result.append([url,abstract])
    print(abstract)
    time_end = time.time()
    print('成功爬取：%s条'%len(result))
    print('耗时：',time_end - time_start)

    #if len(result) in range(500,6994,500):
        #time.sleep(300)
title_link_result.save('根系分泌物CNKI结果.xlsx')

一般是爬取2500条以下的话，知网无障碍响应。超过2500条以后服务器可能会无法响应。