美文网首页python爬虫大数据 爬虫Python AI Sql
小试牛刀--Python爬虫BeautifulSoup使用

小试牛刀--Python爬虫BeautifulSoup使用

作者: DDDDLU | 来源:发表于2018-06-05 09:47 被阅读8次

python爬数据小试牛刀--beautifulSoup使用

1.环境配置

  • 编译环境:python 2.7
  • 编译器:pycharm
  • HTML或XML提取工具:beautifulSoup(安装自行百度)

2.网站分析

  • 网站:斗鱼(http://www.douyu.com
  • 爬取目标:首页的图片
  • 步骤一:查看图片信息,鼠标右键图片,选择检查
  • image
    检查
  • 步骤二:分析发现图片连接都在src下面
  • 步骤三:代码编写
  • 导入库
 import urllib
 from  bs4  import BeautifulSoup 
  • 获取网页
 import urllib
from  bs4  import BeautifulSoup
f=urllib.urlopen("http://www.douyu.com")
html =f.read()
soup = BeautifulSoup(html, 'html.parser')
  • 匹配查询
ss=soup.find_all('img')
print ss
lenth=int(len(ss))
print lenth
for i in range(lenth):
    url =ss[i].attrs['src']
    print url
    tad=url.rfind('.')
    print tad
    if tad>0:
       str= url[tad+1:tad+4]
       if str=='png':
           print "this is png"
           urllib.urlretrieve(url, './img2/png%d.png'%i)
       elif str=='jpg':
           print 'this is jpg'
           urllib.urlretrieve(url, './img2/img%d.jpg' % i)
       elif str=='gif':
           print "this is gif"
           urllib.urlretrieve(url, './img2/gif%d.gif' % i)
       else:print "Error"
       

3.总结

获取图片的过程中,发现图片有jpg,png,和gif,于是通过字符串操作,把格式区分开来。

相关文章

网友评论

    本文标题:小试牛刀--Python爬虫BeautifulSoup使用

    本文链接:https://www.haomeiwen.com/subject/ggfpsftx.html