零一：用Excel从HTML中清洗出4400条淘宝商品数据

作者: 零一数据 | 来源:发表于2019-08-28 10:20 被阅读0次

零一：用Excel从HTML中清洗出4400条淘宝商品数据
零一：用Excel采集淘宝100页搜索数据
淘宝居然有“潜规则”！用Python爬了上万条商品数据！这才是项
python(pyecharts)生成国家轨迹图
python爬虫下周作业-20170609
R语言陆胖的数据分析之旅
(四)"淘宝商品信息定向爬虫"实例|Pyth
用Excel做数据分析：商品组合
淘宝用户行为分析
从excel中读取数据

大家好，我是零一，电商数据分析专家。

上周的文章讲到采集数据三个流程，分别是找数、采数和洗数。

上周讲到了找数和采数，用Excel采集淘宝网的100页数据，今天是接着上次的内容，如何从HTML中清洗出100页的商品数据，因为每一页是44个商品信息，因此共4400条数据。

这就是所谓的数据清洗的技术，数据清洗有时候比爬数据复杂多了。

对于初学者而已，没有人指导的话是很难摸索出来的。

因为首先要做的是读懂HTML的结构，从而才能确定使用哪种解析方法。

从网页源代码中找到数据并观察数据的结构，下面是源代码节选。

g_page_config = {"pageName":"mainsrp","mods":{"shopcombotip":{"status":"hide"},"phonenav":{"status":"hide"},"debugbar":{"status":"hide"},"shopcombo":{"status":"hide"},"itemlist":{"status":"show","data":{"postFeeText":"运费","trace":"msrp_auction","auctions":[{"p4p":1,"p4pSameHeight":true,"nid":"599712885055","category":"","pid":"","title":"\u003cspan class\u003dH\u003e茶烟\u003c/span\u003e戒烟神器非烟草专卖烟真烟一条香姻产品爆珠男正品烟包邮香烟","raw_title":"茶烟非烟草专卖烟一条爆珠男正品烟包邮香烟","pic_url":"//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i4/391060116/O1CN01R6x2SJ1CjAUdyz9oZ_!!0-saturn_solar.jpg","detail_url":"https://click.simba.taobao.com/cc_im?

通过观察会发现数据是在{键：值}为结构的json结构中，json结构是可以被直接解析的，常见可以被直接解析的结构有Table、xml、json。

注意，json结构是以{开始，}结尾的，因此要从html中提取数据。

通过观察知道json结构前后分别是：

g_page_config = {json正文}; g_srp_loadCss()

注意等号两边都有空格符号，；号后面也有多个空格，少一个多一个空格都会出错，因此最好在页面进行复制。把空格用中文表示的话，大概就是下面的光景。

g_page_config空格=空格{json正文};空格空格空格空格g_srp_loadCss()

在Power Query中先选中采集下来的HTML内容，在转换选项卡中点击提取，找到分隔符之间的文本工具。