爬取小说href然后组合成网址，爬取全本小说1

作者: Rain师兄 | 来源:发表于2020-10-22 21:57 被阅读0次

爬取小说href然后组合成网址，爬取全本小说1
十二. 爬虫实战（Xpath）- 起点中文网的作品信息
2019-02.24（review）
Python爬虫实战
scrapy对爬取的内容进行更新爬取
用xpath爬取小说href
Python爬虫实战——爬取《斗破苍穹》全文小说（基于re模块）
爬取小说
爬取小说
day74-scrapy中间件及嵌套爬取

from bs4 import BeautifulSoup as bf

import requests

url ='https://www.soxscc.com/MangHuangJi/'

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}

html = requests.get(url,headers=headers)

texts = html.text

soup = bf(texts,'lxml')

content = soup.findAll('a')

for i in content:

print(i)

爬取了标签a，现在问题1是要爬取出href，问题2是其中还有不属于章节网址，还是不会连续。

之后我添了代码

for i in content:

hr = i.get('href')

print(hr)

得到

可以看到隔一段就有一个蓝色的网址，影响我爬取文字。还不知道怎么解决。

网友评论

本文标题：爬取小说href然后组合成网址，爬取全本小说1

本文链接：https://www.haomeiwen.com/subject/vjzpmktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬取小说href然后组合成网址，爬取全本小说1

相关文章

爬取小说href然后组合成网址，爬取全本小说1

十二. 爬虫实战（Xpath）- 起点中文网的作品信息

2019-02.24（review）

Python爬虫实战

scrapy对爬取的内容进行更新爬取

用xpath爬取小说href

Python爬虫实战——爬取《斗破苍穹》全文小说（基于re模块）

爬取小说

爬取小说

day74-scrapy中间件及嵌套爬取

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬取小说href然后组合成网址， 爬取全本小说1

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬取小说href然后组合成网址，爬取全本小说1