爬虫这么火，只会vba怎么办？那就用vba啊

作者: 鸣人吃土豆 | 来源:发表于2017-10-26 09:24 被阅读377次

爬虫这么火，只会vba怎么办？那就用vba啊
第一章-環境設置
VBA编程基础1：注释、变量、数据类型、赋值运算
VBA 知识
从零开始学VBA PDF版
VBA学习笔记-02
VBA学习笔记-01
VBA
Excel 宏基础知识-3
2016-01-27桌面GIS应用软件的开发方式

现在爬虫这么火，尤其是用python和R来实现，但是对于不是专业编程人员，平时接触过的语言就只是依赖于office的vba，而我们需要的数据又是来源于网络，那该怎么办呢？其实vba也可以办到爬虫大部分的网页数据。那么我们就来看下应该怎么去写

在看下面的内容之前，建议先看下VBA与网抓，VBA抓取网页数据XMLHTTP对象

需求：将电影名，主演，上映时间，国家，评分等5个信息给提取下来

1.先写出基本架构

Sub maoyanTop100() 
Url = "http://maoyan.com/board/4?offset=0" '猫眼电影top100网址 
Set oHttp = CreateObject("MSXML2.ServerXMLHTTP") '创建一个xmlhttp对象 
Set oDom = CreateObject("htmlfile") '创建一个Dom对象 'XmlHttp对象(MSXML2.XMLHTTP)向http服务器发送请求并使用微软XML文档对象模型Microsoft® XML Document Object Model (DOM)处理回应。 
With oHttp 'open，创建一个新的http请求，并指定此请求的方法、URL以及验证信息(用户名/密码) 'send,发送请求到http服务器并接收回应 
    .Open "GET", Url, False '使用Open方法，用get请求，False代表非异步加载 
    .send '将open方法的信息发送给网页服务器
     oDom.body.innerHtml = .responseText '将响应网页的HTML赋值给Dom对象，并只需要body标签里面的内容 
End With
End Sub

2.接下来我们要将oDom里面的信息给提取出来

猫眼电影top100首页

通过对网页源代码的分析，可以发现，每部电影的信息隐藏在<dd>...</dd>这个标签里的

接下来我们就可以这样子写

Sub maoyanTop100() 
Url = "http://maoyan.com/board/4?offset=0" '猫眼电影top100网址 
Set oHttp = CreateObject("MSXML2.ServerXMLHTTP") '创建一个xmlhttp对象 
Set oDom = CreateObject("htmlfile") '创建一个Dom对象 

'XmlHttp对象(MSXML2.XMLHTTP)向http服务器发送请求并使用微软XML文档对象模型Microsoft® XML Document Object Model (DOM)处理回应。 

With oHttp 
'open，创建一个新的http请求，并指定此请求的方法、URL以及验证信息(用户名/密码) 'send,发送请求到http服务器并接收回应 .Open "GET", Url, False '使用Open方法，用get请求，False代表非异步加载 

    .send '将open方法的信息发送给网页服务器 
     oDom.body.innerHtml = .responseText '将响应网页的HTML赋值给Dom对象，并只需要body标签里面的内容 
End With 
i = 2
For Each Item In oDom.all 
  If Item.tagname = "DD" Then 
    Range("a" & i) = Item.Children(1).getAttribute("title") '电影名信息 
    Range("b" & i) =Item.Children(2).Children(0).Children(0).Children(1).innerText '主演 
    Range("c" & i) = Item.Children(2).Children(0).Children(0).Children(2).innerText '上映时间和国家 
    Range("d" & i) = Item.Children(2).Children(0).Children(1).Children(0).innerText '评分 
    i = i + 1 
  End If 
Next
End Sub

通过上面的代码，就可以将一页的所有电影信息都给爬取下来，但是我们要爬取的是100个电影，我们必须将其他网页的信息也可提取下来，通过对网页链接的观察，我们发现，网页是这样一个规律：

所以，我们可以通过循环将所有页面的链接循环一遍，得到最终的代码：

Sub maoyanTop100() 
i = 2 
For n = 0 To 9 
  Url = "http://maoyan.com/board/4?offset=" & n * 10 
  Set oHttp = CreateObject("MSXML2.ServerXMLHTTP") 
  Set oDom = CreateObject("htmlfile") 
  With oHttp 
    .Open "GET", Url, False 
    .send 
    oDom.body.innerHtml = .responseText 
  End With 
  For Each Item In oDom.all 
    If Item.tagname = "DD" Then 
    Range("a" & i) = Item.Children(1).getAttribute("title") 
    Range("b" & i) = Item.Children(2).Children(0).Children(0).Children(1).innerText 
    Range("c" & i) = Item.Children(2).Children(0).Children(0).Children(2).innerText 
    Range("d" & i) = Item.Children(2).Children(0).Children(1).Children(0).innerText 
    i = i + 1 
  End If 
  Next 
Next n 
MsgBox "Done ！"
End Sub

爬虫这么火，只会vba怎么办？那就用vba啊
现在爬虫这么火，尤其是用python和R来实现，但是对于不是专业编程人员，平时接触过的语言就只是依赖于office...
第一章-環境設置
了解VBA 學習VBA之前，先了解一下VBA到底是啥玩意。VBA(Visual Basic Application...
VBA编程基础1：注释、变量、数据类型、赋值运算
VBA语言元素首先是一个简单的VBA Sub过程，包含典型VBA语言元素。以上过程中包含部分常见VBA语言元素...
VBA 知识
VBA 编程基础 Excel VBA入门（二）数组和字典 Excel VBA 的可变类型Variant ed2k:...
从零开始学VBA PDF版
本书主要分为6篇，包括Excel VBA准备篇、Excel VBA基础篇、Excel VBA对象模型篇、Excel...
VBA学习笔记-02
VBA学习笔记笔记摘抄自EXCEL精英培训-蓝色幻想 VBA学习笔记01（链接）VBA学习笔记02 （链接）目...
VBA学习笔记-01
VBA学习笔记笔记摘抄自EXCEL精英培训-蓝色幻想 VBA学习笔记01（链接）VBA学习笔记02 （链接）目...
VBA
Tutorial: https://www.tutorialspoint.com/vba/vba_text_fil...
Excel 宏基础知识-3
31 Excel VBA - Sheet Protection 32 Excel VBA - Activate S...
2016-01-27桌面GIS应用软件的开发方式
1、VBA桌面扩展 1）VBA是简化的Visual Basic语言及其子集 2）用于支持VBA扩展的Windows...

爬虫这么火，只会vba怎么办？那就用vba啊

需求：将电影名，主演，上映时间，国家，评分等5个信息给提取下来

1.先写出基本架构

相关文章

爬虫这么火，只会vba怎么办？那就用vba啊

第一章-環境設置

VBA编程基础1：注释、变量、数据类型、赋值运算

VBA 知识

从零开始学VBA PDF版

VBA学习笔记-02

VBA学习笔记-01

VBA

Excel 宏基础知识-3

2016-01-27桌面GIS应用软件的开发方式

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

excel的一些小技巧教程

VBA For Excel

爬虫专题

Excel 加油站

精进Excel