家用电器的分类方法在世界上尚未统一,按照体型或者用途分类的话一级分类大致分为四大类:大家电、厨卫电器、生活电器、其他电器。其中大家电包含:冰箱、洗衣机、彩电、空调等;厨卫电器包含了厨房电器和卫浴电器:微波炉、电烤箱、蒸汽炉、食品处理机等四十几个三级分类,生活电器包含:吸尘器、除螨仪、扫地机、养生壶等三十几个三级分类;其他生活电器则是像定时器、热得快等不包含在其他三个大品类里面的小电器。
一个品类包含产品众多,那么我们如何才能将这些产品尽可能采集齐全呢?首先我们需要一套采集能力很强的软件,也就是技术要硬,技术不达标其他都是空谈。其次,就是需要我们用专业的眼光去收集每个产品的关键词,这里关键词绝对不是一个产品单纯的一个关键词,比如彩电,你要采集齐全那么除了用“彩电”为关键词,还可以同时加入“电视机”“智能电视”等关键词,但是不建议用“电视”这个关键词,因为前面已经有关键词“彩电”,这个时候加入一个“电视”很多会有彩电重叠,更重要的是“电视”采集回来的产品中更大机会包含“电视柜”“电视挂架”“电视柜茶几组合”等其他产品,不利于后面数据清洗。
除了多角度收集产品关键词,我们还需要多维度去采集,这样的数据覆盖率又会上升一个等级。这里多维度是除了关键词外的“搜索链接采集”。就京东家电数据采集而言,从京东首页左侧导航栏分别点击产品进入到相关产品页面,分别将该产品浏览器上面的链接复制出来,放到软件里面去采集。这样操作的好处就是有些宝贝标题里面没有包含相应关键词,或者关键词收集时候不齐全,但是只要他是将宝贝选择的这个品类上架的都可以采集到。
采集技术非常成熟的情况下,通过“关键词”+“搜索链接”相结合的采集方式会让数据覆盖率达到98%以上。
以上品类划分信息由深圳安托数据友情提供,如有不同见解可加作者讨论。
网友评论