美文网首页
爬取小说href然后组合成网址, 爬取全本小说1

爬取小说href然后组合成网址, 爬取全本小说1

作者: Rain师兄 | 来源:发表于2020-10-22 21:57 被阅读0次

from bs4 import BeautifulSoup as bf

import requests

url ='https://www.soxscc.com/MangHuangJi/'

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}

html = requests.get(url,headers=headers)

texts = html.text

soup = bf(texts,'lxml')

content = soup.findAll('a')

for i in content:

print(i)

爬取了标签a,现在问题1是要爬取出href,问题2是其中还有不属于章节网址,还是不会连续。

之后我添了代码

for i in content:

hr = i.get('href')

print(hr)

得到

可以看到隔一段就有一个蓝色的网址,影响我爬取文字。还不知道怎么解决。

相关文章

网友评论

      本文标题:爬取小说href然后组合成网址, 爬取全本小说1

      本文链接:https://www.haomeiwen.com/subject/vjzpmktx.html