麻瓜编程·python实战·1-4作业：爬取Taylor Swi

麻瓜编程·python实战·1-4作业：爬取Taylor Swi

作者: bbjoe | 来源:发表于2016-08-10 11:04 被阅读0次

麻瓜编程·python实战·1-4作业：爬取Taylor Swi
Python 实战计划1.4作业
麻瓜编程·python实战·1-3作业：爬取租房信息
麻瓜编程·python实战·1-2作业：爬取商品信息
Python 爬虫学习爬取房租——麻瓜编程
麻瓜编程·python实战·1-2自学：爬取new blah
麻瓜编程python web培训课程百度云视频下载分享
Python爬虫实战之爬取链家广州房价_03存储
2017-12-31
麻瓜编程·python实战·2-2作业：爬取58手机号

我的结果：

Talor Swift

我的代码：

from bs4 import  BeautifulSoup
import requests, urllib.request
import time, os

# 收纳图片地址
img_url = []  
# 目标网页，20页
urls = ['http://weheartit.com/inspirations/taylorswift?page={}&before=253730307'.format(str(i)) for i in range(1, 21)]   

#解析网页，获取图片地址，返回列表
def get_img_urls(url):
    time.sleep(5)
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')
    imgs = soup.select('div[id="main-container"] > div:nth-of-type(2) > div > div > div > div > a > img')
    for img in imgs:
        img = img.get('src')
        img_url.append(img)
    return img_url

# 下载图片
def img_retrieve(item):
    # 新建路径
    if not os.path.exists(r'C:/Users/Administrator/desktop/Taylor_Switf/'):
        os.mkdir(r'C:/Users/Administrator/desktop/Taylor_Switf/')
    item_path = 'C:/Users/Administrator/desktop/Taylor_Switf/'
   # 下载图片，用序号命名
    urllib.request.urlretrieve(item, item_path + item[-14:].replace('superthumb',str(img_url.index(item))))

#起点
for url in urls:
    get_img_urls(url)

for item in img_url:
    img_retrieve(item)

我的感想：

用时两个小时十五分钟
关于网站（weheartit.com/）我想说：

群里有人说需要代理才能爬，但是我没用，而且之前很多人反映网站速度慢，但我今天却很快。不知道发生了什么，也许改版了？
当我在检查网页结构的时候，我发现图片都是webp格式的：
webp格式
但是我爬取出来的数据却是全部都是superthumb.jpg：
superthumb.jpg
不知道发生了什么。

关于代码我想说：

我的select语句用很长，别人的很短，如：'img[class="entry_thumbnail"]
关于文件夹路径，使用 import os。

检查路径存在：os.path.exists
建立路径：os.mkdr/os.mkdirs

其实每次爬虫运行的过程都感觉挺惊险的。希望能快快进步。

相关文章

麻瓜编程·python实战·1-4作业：爬取Taylor Swi
我的结果：我的代码：我的感想：用时两个小时十五分钟关于网站（weheartit.com/）我想说：群里有...
Python 实战计划1.4作业
Python 实战计划1.4作业爬取前20页的Taylor Swift的图片，并下载到本地。我的代码：总结：...
麻瓜编程·python实战·1-3作业：爬取租房信息
运行结果：我的代码：我的感想：用时接近3个小时(⊙o⊙)… 真的很怕运行到第100多条的时候报错（多谢群友提...
麻瓜编程·python实战·1-2作业：爬取商品信息
我的结果：我的代码：我的感受：我在find_all获取星级那里卡了一下，一直想找一个直接能返回数字的方法，但...
Python 爬虫学习爬取房租——麻瓜编程
编程课程链接：https://www.gitbook.com/book/mugglecoding/qa/detai...
麻瓜编程·python实战·1-2自学：爬取new blah
代码
麻瓜编程python web培训课程百度云视频下载分享
Q: 这门课程详情介绍 A: 麻瓜编程致力于帮助初学者快速上手编程实战。图灵电子书《编程小白的第一本 Python...
Python爬虫实战之爬取链家广州房价_03存储
问题引入系列目录： Python爬虫实战之爬取链家广州房价_01简单的单页爬虫 Python爬虫实战之爬取链家广...
2017-12-31
python爬虫实战：爬取全站小说排行榜 ...
麻瓜编程·python实战·2-2作业：爬取58手机号
我的结果我的代码我的感想：我估计我花了5个多小时，处理了挺多大大小小的坑，主要的坑点在于：广告的剔除，个别结...

网友评论

本文标题：麻瓜编程·python实战·1-4作业：爬取Taylor Swi

本文链接：https://www.haomeiwen.com/subject/xitjsttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|麻瓜编程·python实战·1-4作业：爬取Taylor Swi|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！