美文网首页
妹子图爬虫代码调试(未解决)

妹子图爬虫代码调试(未解决)

作者: 冰镇果汁加点糖 | 来源:发表于2018-06-25 16:54 被阅读0次

2018-06-25 调试爬虫代码

import requests  ##导入requests
from bs4 import BeautifulSoup  ##导入bs4中的BeautifulSoup
import os

headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}  ##浏览器请求头(大部分网站没有这个请求头会报错、请务必加上哦)
all_url = 'http://www.meizitu.com/'
start_html = requests.get(all_url, headers=headers)
soup = BeautifulSoup(start_html.text, 'lxml') 
all_a = soup.find(id='maincontent').find_all('a')
for a in all_a:
    title = a.get_text()
    href = a['href']
    print(title,href)
    html = requests.get(href, headers=headers) 
    html_Soup = BeautifulSoup(html.text, 'html.parser') 
    max_span = html_Soup.find(id='maincontent')
    print(type(max_span))

帮助调试这段爬虫代码报错问题

错误.png
这里的问题是对链接列表all_a的第一个a请求会返回一个NoneType

安装需要的库
pip3 install beautifulsoup4
pip3 install lxml
然后开始debug

  1. 最初认为是该url对应的页面不包含‘maincontent’,但是在浏览器中打开该URL用开发者工具检查发现并不是。
  2. 同时,很快发现第一次请求的url和第二次请求的url是相同的!但第一次返回为NoneType,第二次返回正常。
  3. 有切片截取all_a列表中其他部分然后开始爬取(for a in all_a[3:7]:),错误依旧。

此时,判断可能是页面需要先作一个Cache,或者是这个一个ajax异步请求,先返回了不包含目标内容的response

暂时未解决

相关文章

  • 妹子图爬虫代码调试(未解决)

    2018-06-25 调试爬虫代码 帮助调试这段爬虫代码报错问题 安装需要的库pip3 install beaut...

  • python爬虫 爬取妹子图片

    不爬妹子图的爬虫不是一只好爬虫。 ----鲁迅主页网址[妹子图...

  • Python3实战:批量下载妹子图片

    目标网站:点击进入 说明:代码来源「福利向」Python妹子图爬虫(一)不使用框架,简单上手 实例代码:

  • Java爬虫 爬妹子图

    这是一个简单的java爬虫代码 用来爬妹子图的 在本次的爬虫实践中要用的 jar 依赖包如下: commons-i...

  • python爬虫 爬取妹子图

    不爬妹子图的爬虫不是一只好爬虫。 ----鲁迅 主页网址唯一图...

  • 爬虫妹子图

    爬虫第二天 其实一直想爬个妹子图,因为网上的教程不计其数,好像都是拿这个作为案例教材来入门的。毕竟实战出真知。昨天...

  • Python 爬虫入门(二)——爬取妹子图

    Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图。如果这也没动力那就没救了。 GitHub ...

  • 一、多端展示(uniapp)以及内容发布系统(wordpress

    概述 学习爬虫时发现很多人都用妹子图练手,使用scrapy或者selenium将妹子图的所有图片都爬出来,妹子图是...

  • 妹子图项目

    主页面展示 项目说明 kotlin妹子图项目 本项目未链接后台服务,纯安卓工序 应用自己封装的爬虫工具,极为简单,...

  • kotlin妹子图项目

    主页面展示 项目说明 kotlin妹子图项目 本项目未链接后台服务,纯安卓工序 应用自己封装的爬虫工具,极为简单,...

网友评论

      本文标题:妹子图爬虫代码调试(未解决)

      本文链接:https://www.haomeiwen.com/subject/uosyyftx.html