美文网首页
虎扑图片爬虫

虎扑图片爬虫

作者: 四牌楼吴彦祖 | 来源:发表于2018-01-14 13:23 被阅读0次

平时喜欢看篮球,所以经常逛虎扑,这几天写爬虫,所以就想写个爬虫爬一下虎扑帖子里面的图片。

一般来说,帖子里面图片是这样的:

1.png

打开网页源代码,看到图片在网页中的路径如下:

2.png

根据图片存储的路径,可以采用正则表达式提取、bs提取或者xpath表达式提取,此处采用正则表达式提取,表达式如下:

img1Pattern = re.compile('<img .?(http://i.?)?/format,webp')

全部代码如下,存储路径换成自己本地路径

import requests

from urllib.requestimport urlopen, urlretrieve

import time

import re

import os

import threading

filepath ="本地路径"

获取网页中的链接

def get_url():

totalurl = []

for iin range(1,22):

baseurl ='网页结构'+str(i)+'.html'

    pattern ='" href="(https://bbs.hupu.com/.*?.html)"'

    url = filepath + baseurl

print(url)

    html =open(url, 'r', encoding='utf-8').read()

urllist = re.compile(pattern).findall(html)

totalurl += urllist

time.sleep(5)

print(len(totalurl))

return totalurl

def getImgUrls():

urllist = get_url()

img1Pattern = re.compile('

img2Pattern = re.compile('

titlePattern = re.compile('>(.*?)')

url = urllist[1]

print(url)

imgList = []

for ain range(len(urllist) -1):

url = urllist[a]

try:

html = requests.get(url).text

print(html)

        img1 = re.findall(img1Pattern, html)

img2 = re.findall(img2Pattern, html)

imgList = img1 + img2

title = re.findall(titlePattern, html)[0]

path = filepath + title[:-3]

print(path)

if not os.path.exists(path):

os.mkdir(path)

x =0

        for iin range(len(imgList) -1):

img = imgList[i]

imgPath = path +'/' +str(x) +'.jpg'

            urlretrieve(img, imgPath)

x +=1

    except Exception as e:

print(e)

if name =='main':

getImgUrls()

相关文章

  • 虎扑图片爬虫

    平时喜欢看篮球,所以经常逛虎扑,这几天写爬虫,所以就想写个爬虫爬一下虎扑帖子里面的图片。 一般来说,帖子里面图片是...

  • Python简单爬虫爬取虎扑社区福利gif图片

    以下程序亲测成功,重点代码都加了注释,就不一一介绍了。爬取结果各位自行体会。PS:爬取前先在当前文件夹建立hupu...

  • 虎扑步行街爬虫分析

    最近学习scrapy,就拿虎扑练了下手,主要爬取虎扑步行街的帖子以及回帖的一些数据。 scrapy的教程可以看一下...

  • 吴亦凡战虎扑:作为一个音乐人,是否合格?

    这几天吴亦凡粉丝虎扑登上热搜,被称为:这是虎扑成立十四年以来虎扑步行街携66万虎扑JRs于微博迎战吴亦凡skr大军...

  • 虎扑步行街晒图模块爬虫

    一、目标 爬取下载步行街晒图模块所有图片。 虎扑地址 https://bbs.hupu.com/selfie 截图...

  • 虎扑篮球

    [cp]【斯马特:我们经历过伤病,现在只想着赢球】戈登-海沃德、凯里-欧文和丹尼尔-泰斯本赛季都不会回归,而杰伦-...

  • 虎扑篮球

    [cp]【伊利亚索瓦:我们要想晋级必须拿下一场客场胜利】“有时候当你早早地结束首轮系列赛,你在下一轮系列赛开始前有...

  • 虎扑小段

    偶尔看到的,侵删~have some fun 朋友以前是网管,一天有几个混混来网吧找麻烦,朋友灵机一动把网弄断,网...

  • 虎扑看球客户端产品分析报告(Andioid)

    目录: 一、产品概述 虎扑体育概述虎扑客户端矩阵虎扑看球客户端 二、产品策略 产品定位产品战略 三、用户分析 安卓...

  • Python: 实验爬取虎扑篮球图片

    编程确实是一个锻炼逻辑思维最有效的工具之一,之前自学Python。总是陷入一个怪圈:看入门数据--一段时间不用忘记...

网友评论

      本文标题:虎扑图片爬虫

      本文链接:https://www.haomeiwen.com/subject/hkykoxtx.html