scp_spider项目
这个项目是爬虫模块,利用java语言编写,使用框架spiderman, gitee上有样例,https://gitee.com/l-weiwei/spiderman和https://gitee.com/l-weiwei/Spiderman2,两个版本, 使用gradle作为项目的仓库构建。
整个爬虫的架构图:
image.png
1.package com.luxury.dbuy; 这个是dbuy的爬虫代码。分为listPage和detailPage两个模块,其中DBuyListExtractor是列表页的解析,DBuyDetailExtractor是详情页的解析。(已停用)
2.package com.luxury.farfetch; 这个是farfetch的爬虫代码。分为homePage和listPage以及detailPage模块,以及相应的解析,爬取的是farfetch PC端的数据,由于之前的分页按钮,被加密了,所有通过列表页的total_products来获取总页数。
3.package com.luxury.michbuyer;是michbuyer的爬虫代码,分为login和searchPage以及detailPage,login获取token,5分钟刷新一次,通过查询页获取商品集合,MiChSearchExtractor为searchPage的解析器,MiChDetailExtractor为detailPage的解析器。
4.package com.luxury.netAPorter;为netAPorter爬虫的代码。爬取的是PC端的页面,利用xpath解析器,来提起商品.
5.package com.luxury.secoo;为寺库的爬虫代码。爬取的是secoo的PC端,利用xpath来提取页面的商品数据。
6.package com.luxury.twoccm;为twoccm的爬虫代码,分为category的homePage和listPage以及detailPage。TwoCcmListExtractor为listPage的解析器,TwoCcmDetailExtractor为detailPage的解析器。
具体的参数配置,比如爬虫的时间,历史数据清除时间,代理IP的设置见application.yml。
image.pngscp_web项目
这个项目是整个项目的前端,利用react编写,样例https://github.com/ant-design/ant-design。
scp_merger项目
这个项目是数据聚合处理以及接口模块,内容比较复杂,使用springboot+weka构建,数据连接池使用druid,双数据源,分别覆盖作用不同的包。
1.scheduler模块(定时任务):
1)缓存各个平台的历史数据到redis中,CacheRawProductInfoTask, 从各个平台的原始数据表缓存数据到redis。
2)图像上传到aliyun的OSS服务器,便于后面的图像对比,5分钟执行一次。
3)图像对比定时任务,resize缩小图片然后对比。
4)同步im数据定时任务,每天3点执行。
5)各个平台商品标注化的定时任务,如果是新商品则在响应的std表中新建商品,否则更新。
image.png
具体流程如脑图:http://naotu.baidu.com/file/a275e9b183b64bc1556264cd57423303?token=543b2acc6dcd3872
商品相似比较流程:
image.png
各个爬虫平台各个属性的权重设计在:FeatureSimilarityWeight类中
2.controller模块:
最主要controller如下:
1)商品标注(正向标注)ProductLabelController: 前端标注页面http://mer.shechipin.styleroom.cn:8080/html/imProductLabelDetail.html
从IM表中获取待匹配标注的商品,以标注,取出redis中该商品相似的商品,用于人工标注,如果redis没有,就从数据库中查询。
2)页面商品查询(ProductStdController): 用于页面商品的查询,以及相似商品的查询。
地址:http://we.shechipin.styleroom.cn/#/products
3)反向标注ThirdProductLabelController:前端标注页面http://mer.shechipin.styleroom.cn:8080/html/thirdProductLabelDetail.html
从第三方平台的商品中获取待标注的商品和im对比,标注。
4)weka模型接口WekaController:新建模型(buildJ48Model),根据数据库人工标注结果训练weka模型 模型文件放到config文件夹下面。将指定名称文件设置当前使用模型(loadJ48Model),查询当前正在使用的模型的summary描述(j48Model),查询当前可用model列表(listModel).
- 登录权限的设计在WwwAuthFilter类中,服务器使用了nginx的用户名和密码在config路径下的auth.properties中,定时任务的配置都在config路径下的commonConfig.properties中。
服务器部署:
image.png image.png
数据库模型图:
商品模型图.png 类目颜色品牌模型图.png
表设计DDL:
CREATE TABLE `brand` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`brand_name` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
PRIMARY KEY (`id`),
KEY `idx_brand_name` (`brand_name`)
) ENGINE=InnoDB AUTO_INCREMENT=2749 DEFAULT CHARSET=utf8;
CREATE TABLE `brand_map` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`wrapper_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站名称',
`wrapper_brand_name` varchar(100) DEFAULT '' COMMENT '网站中品牌名称',
`brand_name_std` varchar(100) NOT NULL DEFAULT '' COMMENT '标准品牌名称',
`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
PRIMARY KEY (`id`),
KEY `idx_wrapper_name_brand_name` (`wrapper_name`,`wrapper_brand_name`)
) ENGINE=InnoDB AUTO_INCREMENT=1949 DEFAULT CHARSET=utf8;
CREATE TABLE `category_map` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键ID',
`wrapper_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站名称',
`wrapper_category_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站中分类名称',
`category_std_id` int(11) NOT NULL DEFAULT '0' COMMENT '标准分类iD,对应category_std表中的id',
`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
PRIMARY KEY (`id`),
UNIQUE KEY `uniq_wrapper_name_category_name` (`wrapper_name`,`wrapper_category_name`),
KEY `idx_category_std_id` (`category_std_id`)
) ENGINE=InnoDB AUTO_INCREMENT=2850 DEFAULT CHARSET=utf8mb4 COMMENT='分类标准映射表';
CREATE TABLE `category_std` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`category_name` varchar(10) NOT NULL DEFAULT '' COMMENT '标准分类名称',
`parent_category_id` int(11) NOT NULL DEFAULT '0' COMMENT '父分类ID',
`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
PRIMARY KEY (`id`),
UNIQUE KEY `uniq` (`category_name`),
KEY `idx_parent_category_id` (`parent_category_id`)
) ENGINE=InnoDB AUTO_INCREMENT=1052 DEFAULT CHARSET=utf8mb4 COMMENT='标准分类表';
CREATE TABLE `color_map` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '网站名称',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
`wrapper_color` varchar(100) NOT NULL DEFAULT '' COMMENT '网站原文颜色',
`wrapper_trans_color` varchar(100) NOT NULL DEFAULT '' COMMENT '网站原文颜色翻译成中文颜色',
`labeled_color` varchar(100) NOT NULL DEFAULT '' COMMENT '被标注的颜色',
`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
PRIMARY KEY (`id`),
UNIQUE KEY `uniq_wrapper_name_color` (`wrapper_name`,`brand`,`wrapper_color`)
) ENGINE=InnoDB AUTO_INCREMENT=41208 DEFAULT CHARSET=utf8mb4;
CREATE TABLE `dbuy` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
`name` varchar(255) DEFAULT NULL,
`brand` varchar(64) DEFAULT NULL,
`prdc` varchar(32) DEFAULT NULL,
`sex` varchar(6) DEFAULT NULL,
`material` varchar(255) DEFAULT NULL,
`dimension` varchar(64) DEFAULT NULL,
`third_party_seq` varchar(32) DEFAULT NULL,
`category_name1` varchar(32) DEFAULT NULL,
`category_name2` varchar(32) DEFAULT NULL,
`category_name1_std` varchar(32) DEFAULT NULL,
`category_name2_std` varchar(32) DEFAULT NULL,
`intra_mirror_id` varchar(16) DEFAULT NULL,
`size` text,
`store` varchar(255) DEFAULT NULL,
`price` int(11) DEFAULT '0',
`t_price` int(11) DEFAULT '0',
`china_yuan` int(11) DEFAULT '0',
`description` text,
`p_pic` text,
`g_pic` text,
`color` varchar(16) DEFAULT NULL,
`created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
`designer_id` varchar(50) NOT NULL DEFAULT '' COMMENT '特定编号',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`id`),
KEY `brand` (`brand`),
KEY `idx_src_data_md5` (`src_data_md5`) USING BTREE,
KEY `idx_designer_id` (`designer_id`),
KEY `idx_created_at` (`created_at`)
) ENGINE=InnoDB AUTO_INCREMENT=2124189 DEFAULT CHARSET=utf8;
CREATE TABLE `dbuy_std` (
`product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
`name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
`name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
`material` varchar(100) NOT NULL DEFAULT '' COMMENT '材料',
`material_std` varchar(100) NOT NULL DEFAULT '' COMMENT '材料标准映射',
`color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
`color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
`size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
`price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
`original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
`brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
`category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
`category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
`category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
`category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
`gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
`gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
`product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
`product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
`images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
`oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
`imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
`store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
`designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
`designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
`season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
PRIMARY KEY (`product_id`),
KEY `idx_src_data_md5` (`src_data_md5`),
KEY `idx_brand_std` (`brand_std`),
KEY `idx_category_name2_std` (`category_name2_std`),
KEY `idx_update_time` (`update_time`),
KEY `idx_designer_id` (`designer_id`),
KEY `idx_designer_id_std` (`designer_id_std`),
KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='dbuy标准映射表';
CREATE TABLE `farfetch` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
`name` varchar(255) DEFAULT NULL,
`brand` varchar(64) DEFAULT NULL,
`prdc` varchar(32) DEFAULT NULL,
`sex` varchar(6) DEFAULT NULL,
`material` varchar(255) DEFAULT NULL,
`dimension` varchar(64) DEFAULT NULL,
`third_party_seq` varchar(32) DEFAULT NULL,
`category_name1` varchar(32) DEFAULT NULL,
`category_name2` varchar(32) DEFAULT NULL,
`category_name1_std` varchar(32) DEFAULT NULL,
`category_name2_std` varchar(32) DEFAULT NULL,
`intra_mirror_id` varchar(16) DEFAULT NULL,
`size` text,
`store` varchar(255) DEFAULT NULL,
`store_name` varchar(255) CHARACTER SET utf8mb4 DEFAULT NULL,
`price` int(11) DEFAULT '0',
`t_price` int(11) DEFAULT '0',
`china_yuan` int(11) DEFAULT '0',
`description` text,
`p_pic` text,
`g_pic` text,
`color` varchar(16) DEFAULT NULL,
`created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
`designer_style_id` varchar(32) DEFAULT NULL,
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`id`),
KEY `brand` (`brand`),
KEY `idx_created_at` (`created_at`)
) ENGINE=InnoDB AUTO_INCREMENT=15939757 DEFAULT CHARSET=utf8;
CREATE TABLE `farfetch_std` (
`product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
`name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
`name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
`material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
`material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
`color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
`color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
`size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
`price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
`original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
`brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
`category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
`category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
`category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
`category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
`gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
`gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
`product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
`product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
`images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
`oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
`imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
`store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
`designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
`designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
`season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
PRIMARY KEY (`product_id`),
KEY `idx_src_data_md5` (`src_data_md5`),
KEY `idx_brand_std` (`brand_std`),
KEY `idx_category_name2_std` (`category_name2_std`),
KEY `idx_update_time` (`update_time`),
KEY `idx_designer_id` (`designer_id`),
KEY `idx_designer_id_std` (`designer_id_std`),
KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='farfetch标准映射表';
CREATE TABLE `im` (
`product_id` bigint(64) NOT NULL DEFAULT '0' COMMENT '商品ID(唯一标识)',
`name` varchar(256) NOT NULL DEFAULT '' COMMENT '商品名',
`value_ColorCode` varchar(1024) NOT NULL DEFAULT '' COMMENT '颜色',
`value_Composition` varchar(1024) NOT NULL DEFAULT '' COMMENT '材料',
`min_im_price` decimal(16,4) NOT NULL DEFAULT '0.0000' COMMENT '售价',
`min_retail_price` decimal(16,4) NOT NULL DEFAULT '0.0000' COMMENT '原价',
`english_name` varchar(256) NOT NULL DEFAULT '' COMMENT '品牌',
`chinese_name_category1` varchar(256) NOT NULL DEFAULT '' COMMENT '一级分类',
`chinese_name_category` varchar(256) NOT NULL DEFAULT '' COMMENT '二级分类',
`chinese_name_category2` varchar(256) NOT NULL DEFAULT '' COMMENT '性别',
`value_MadeIn` varchar(1024) NOT NULL DEFAULT '' COMMENT '产地',
`cover_img` text COMMENT '商品图片',
`cover_img_spu` text COMMENT '商品图片',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
`created_at_vendor` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
`designer_id` varchar(50) NOT NULL DEFAULT '' COMMENT '特定编号',
`season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
PRIMARY KEY (`product_id`),
KEY `idx_update_time` (`update_time`),
KEY `idx_src_data_md5` (`src_data_md5`),
KEY `idx_designer_id` (`designer_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='im商品数据表';
CREATE TABLE `im_std` (
`product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
`name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
`name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
`material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
`material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
`color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
`color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
`size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
`price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
`original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
`brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
`category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
`category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
`category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
`category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
`gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
`gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
`product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
`product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
`images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
`oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
`imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
`store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
`designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
`designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
`season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
PRIMARY KEY (`product_id`),
KEY `idx_src_data_md5` (`src_data_md5`),
KEY `idx_brand_std` (`brand_std`),
KEY `idx_category_name2_std` (`category_name2_std`),
KEY `idx_update_time` (`update_time`),
KEY `idx_designer_id` (`designer_id`),
KEY `idx_designer_id_std` (`designer_id_std`),
KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='im标准映射表';
CREATE TABLE `image_color` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫名称(目前只有im)',
`product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID',
`image_url` varchar(200) NOT NULL DEFAULT '' COMMENT '商品图片URL',
`color_info` varchar(500) NOT NULL DEFAULT '' COMMENT '商品图片对应的颜色分数值(json数组)',
`calculate_color` varchar(12) NOT NULL DEFAULT '' COMMENT '推算颜色',
`mark_status` varchar(12) DEFAULT NULL COMMENT 'marking status',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`pic_pos` tinyint(4) DEFAULT '-1' COMMENT 'pic pos in production table after color_info',
`image_md5` varchar(32) DEFAULT '',
PRIMARY KEY (`id`),
UNIQUE KEY `uniq_image_md5` (`image_md5`),
KEY `idx_wrapper_product_id` (`wrapper_name`,`product_id`)
) ENGINE=InnoDB AUTO_INCREMENT=222258 DEFAULT CHARSET=utf8mb4 COMMENT='图片颜色表';
CREATE TABLE `label_log` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
`operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
`label_type` tinyint(4) NOT NULL DEFAULT '1' COMMENT '标注类型',
`src_wrapper_name` varchar(20) NOT NULL DEFAULT '',
`src_product_id` varchar(50) NOT NULL DEFAULT '',
`target_wrapper_name` varchar(20) NOT NULL DEFAULT '',
`target_product_id` varchar(50) NOT NULL DEFAULT '',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (`id`),
KEY `idx_operate_name_update_time` (`operate_name`,`update_time`) USING BTREE,
KEY `idx_label_type` (`label_type`) USING BTREE,
KEY `idx_update_time` (`update_time`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=863877 DEFAULT CHARSET=utf8mb4;
CREATE TABLE `michbuyer` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
`name` varchar(255) DEFAULT NULL,
`brand` varchar(64) DEFAULT NULL,
`prdc` varchar(32) DEFAULT NULL,
`sex` varchar(6) DEFAULT NULL,
`material` varchar(64) DEFAULT NULL,
`dimension` varchar(64) DEFAULT NULL,
`third_party_seq` varchar(32) DEFAULT NULL,
`category_name1` varchar(32) DEFAULT NULL,
`category_name2` varchar(32) DEFAULT NULL,
`category_name1_std` varchar(32) DEFAULT NULL,
`category_name2_std` varchar(32) DEFAULT NULL,
`intra_mirror_id` varchar(16) DEFAULT NULL,
`size` text,
`store` varchar(64) DEFAULT NULL,
`price` int(11) DEFAULT '0',
`t_price` int(11) DEFAULT '0',
`china_yuan` int(11) DEFAULT '0',
`description` text,
`p_pic` text,
`g_pic` text,
`color` varchar(16) DEFAULT NULL,
`created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
PRIMARY KEY (`id`),
KEY `brand` (`brand`),
KEY `idx_created_at` (`created_at`)
) ENGINE=InnoDB AUTO_INCREMENT=2233209 DEFAULT CHARSET=utf8;
CREATE TABLE `michbuyer_std` (
`product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
`name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
`name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
`material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
`material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
`color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
`color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
`size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
`price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
`original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
`brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
`category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
`category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
`category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
`category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
`gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
`gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
`product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
`product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
`images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
`oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
`imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
`store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
`designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
`designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
`season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
PRIMARY KEY (`product_id`),
KEY `idx_src_data_md5` (`src_data_md5`),
KEY `idx_brand_std` (`brand_std`),
KEY `idx_category_name2_std` (`category_name2_std`),
KEY `idx_designer_id` (`designer_id`),
KEY `idx_update_time` (`update_time`),
KEY `idx_designer_id_std` (`designer_id_std`),
KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='michbuyer标准映射表';
CREATE TABLE `net_a_porter` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`product_id` bigint(20) unsigned NOT NULL COMMENT '商品ID',
`name` varchar(300) NOT NULL DEFAULT '' COMMENT '商品名称',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
`prdc` varchar(32) DEFAULT NULL COMMENT '产地',
`category_name1` varchar(50) NOT NULL DEFAULT '' COMMENT '一级分类名称',
`category_name2` varchar(32) DEFAULT NULL COMMENT '二级分类名称',
`category_name1_std` varchar(32) DEFAULT NULL,
`category_name2_std` varchar(32) DEFAULT NULL,
`sex` varchar(20) NOT NULL DEFAULT '' COMMENT '商品所属性别',
`size` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
`store` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
`color` varchar(30) NOT NULL DEFAULT '' COMMENT '颜色',
`material` varchar(64) DEFAULT NULL COMMENT '材质',
`price` int(11) NOT NULL DEFAULT '0' COMMENT '商品价格(美元)',
`original_price` int(11) NOT NULL DEFAULT '0' COMMENT '商品原价',
`china_yuan` int(11) NOT NULL DEFAULT '0' COMMENT '人民币价格',
`description` varchar(1000) NOT NULL DEFAULT '' COMMENT '商品详细描述信息',
`p_pic` varchar(2000) NOT NULL DEFAULT '' COMMENT '商品图片(json数组)',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
PRIMARY KEY (`id`),
KEY `idx_product_id` (`product_id`) USING BTREE,
KEY `idx_create_time` (`create_time`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2117580 DEFAULT CHARSET=utf8mb4 COMMENT='net-a-porter商品表';
CREATE TABLE `netaporter_std` (
`product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
`name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
`name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
`material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
`material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
`color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
`color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
`size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
`price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
`original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
`brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
`category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
`category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
`category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
`category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
`gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
`gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
`product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
`product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
`images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
`oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
`imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
`store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
`designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
`designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
`season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
PRIMARY KEY (`product_id`),
KEY `idx_src_data_md5` (`src_data_md5`),
KEY `idx_brand_std` (`brand_std`),
KEY `idx_category_name2_std` (`category_name2_std`),
KEY `idx_designer_id` (`designer_id`),
KEY `idx_update_time` (`update_time`),
KEY `idx_designer_id_std` (`designer_id_std`),
KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='netAPorter标准映射表';
CREATE TABLE `product_date` (
`p_date` date NOT NULL COMMENT '辅助表查日期',
PRIMARY KEY (`p_date`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
CREATE TABLE `product_mapping` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
`wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
`im_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT 'IM商品图片存放目录',
`wrapper_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT '第三方商品图片存放目录',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
`mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
`merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
`sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
`composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
`weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
`name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
`area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
`material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
`designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
`image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
PRIMARY KEY (`id`),
KEY `idx_im_product_id` (`im_product_id`),
KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
KEY `idx_update_time` (`update_time`),
KEY `idx_wrapper_id` (`wrapper_product_id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1060335 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品关联映射表';
CREATE TABLE `product_mapping_check` (
`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`mapping_id` bigint(20) NOT NULL COMMENT 'product_mapping_id',
`im_product_id` varchar(50) NOT NULL COMMENT 'im商品的id',
`wrapper_name` varchar(20) CHARACTER SET utf8 NOT NULL COMMENT '第三方爬虫名字',
`wrapper_product_id` varchar(50) NOT NULL COMMENT '第三方爬虫的商品id',
`mapping_operate_name` varchar(100) NOT NULL COMMENT '标注人',
`mapping_result` tinyint(4) NOT NULL COMMENT 'mapping结果,0表示标注错误,1表示标注成功',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
PRIMARY KEY (`id`),
UNIQUE KEY `mapping_id` (`mapping_id`) USING BTREE COMMENT '每个mapping_id只能插入一次,否则修改'
) ENGINE=InnoDB AUTO_INCREMENT=81309 DEFAULT CHARSET=utf8mb4;
CREATE TABLE `product_mapping_error` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
`wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
`im_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT 'IM商品图片存放目录',
`wrapper_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT '第三方商品图片存放目录',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
`mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
`merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
`sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
`composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
`weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
`name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
`area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
`material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
`designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
`image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
`delete_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '标注错误删除时间',
PRIMARY KEY (`id`),
KEY `idx_im_product_id` (`im_product_id`),
KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
KEY `idx_update_time` (`update_time`)
) ENGINE=InnoDB AUTO_INCREMENT=1875 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品标注错误的映射表';
CREATE TABLE `product_not_mapping` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
`wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
`mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
`merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
`sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
`composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
`weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
`name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
`area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
`material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
`price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
`designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
`image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
PRIMARY KEY (`id`),
KEY `idx_im_product_id` (`im_product_id`),
KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
KEY `idx_update_time` (`update_time`)
) ENGINE=InnoDB AUTO_INCREMENT=7710102 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品没有关联上的映射表';
CREATE TABLE `product_skip_mapping` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`src_wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '原网站名称',
`src_product_id` varchar(100) NOT NULL DEFAULT '' COMMENT '原商品ID',
`target_wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '目标网站名称',
`operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
`mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
`merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
PRIMARY KEY (`id`),
KEY `idx_update_time` (`update_time`),
KEY `idx_src_wrapper_name_product_id` (`src_wrapper_name`,`src_product_id`)
) ENGINE=InnoDB AUTO_INCREMENT=718362 DEFAULT CHARSET=utf8mb4 COMMENT='标注跳过的商品信息表';
CREATE TABLE `secoo` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
`name` varchar(128) DEFAULT NULL COMMENT '物品名称',
`brand` varchar(64) DEFAULT NULL COMMENT '品牌',
`brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准名称',
`category_name` varchar(32) DEFAULT NULL COMMENT '分类名称',
`category_name1_std` varchar(50) DEFAULT NULL COMMENT '标准一级分类名称',
`small_category_name` varchar(32) DEFAULT NULL,
`category_name2_std` varchar(50) DEFAULT NULL COMMENT '标准二级分类名称',
`prdc` varchar(32) DEFAULT NULL COMMENT '产地',
`product_area_std` varchar(100) NOT NULL DEFAULT '' COMMENT '产地标准名称',
`sex` varchar(6) DEFAULT NULL COMMENT '适用人群',
`material` varchar(64) DEFAULT NULL,
`dimension` varchar(64) DEFAULT NULL COMMENT '尺寸',
`third_party_seq` varchar(32) DEFAULT NULL COMMENT '第三方id',
`size` varchar(64) DEFAULT NULL,
`store` varchar(64) DEFAULT NULL,
`price` int(11) DEFAULT '0',
`description` varchar(256) DEFAULT NULL,
`p_pic` text,
`g_pic` text,
`color` varchar(32) DEFAULT NULL COMMENT '颜色',
`item_url` varchar(100) DEFAULT NULL COMMENT '物品url',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
PRIMARY KEY (`id`),
KEY `brand` (`brand`),
KEY `group_name` (`category_name`),
KEY `idx_create_time` (`create_time`)
) ENGINE=InnoDB AUTO_INCREMENT=10907647 DEFAULT CHARSET=utf8;
CREATE TABLE `secoo_std` (
`product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
`name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
`name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
`material` varchar(100) NOT NULL DEFAULT '' COMMENT '材料',
`material_std` varchar(100) NOT NULL DEFAULT '' COMMENT '材料标准映射',
`color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
`color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
`size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
`price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
`original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
`brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
`category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
`category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
`category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
`category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
`gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
`gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
`product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
`product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
`images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
`oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
`imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
`store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
`designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
`designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
`season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
PRIMARY KEY (`product_id`),
KEY `idx_src_data_md5` (`src_data_md5`),
KEY `idx_brand_std` (`brand_std`),
KEY `idx_category_name2_std` (`category_name2_std`),
KEY `idx_update_time` (`update_time`),
KEY `idx_designer_id` (`designer_id`),
KEY `idx_designer_id_std` (`designer_id_std`),
KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='secoo标准映射表';
CREATE TABLE `two_ccm` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
`product_id` bigint(20) unsigned NOT NULL COMMENT '商品ID',
`sku` varchar(50) NOT NULL DEFAULT '' COMMENT '商品SKU',
`name` varchar(300) NOT NULL DEFAULT '' COMMENT '商品名称',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
`category_name1` varchar(50) NOT NULL DEFAULT '' COMMENT '一级分类名称',
`category_name2` varchar(50) NOT NULL DEFAULT '' COMMENT '二级分类名称',
`sex` varchar(20) NOT NULL DEFAULT '' COMMENT '商品所属性别',
`size` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
`color` varchar(30) NOT NULL DEFAULT '' COMMENT '颜色',
`is_in_stock` tinyint(2) NOT NULL DEFAULT '1' COMMENT '是否有库存,0:否,1:是',
`price` int(11) NOT NULL DEFAULT '0' COMMENT '当前售卖价格',
`original_price` int(11) NOT NULL DEFAULT '0' COMMENT '商品原价',
`china_yuan` int(11) NOT NULL DEFAULT '0' COMMENT '人民币价格(等于price)',
`description` varchar(1000) NOT NULL DEFAULT '' COMMENT '商品详细描述信息',
`p_pic` varchar(2000) NOT NULL DEFAULT '' COMMENT '商品图片(json数组)',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
PRIMARY KEY (`id`),
KEY `idx_product_id` (`product_id`) USING BTREE,
KEY `idx_create_time` (`create_time`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2321779 DEFAULT CHARSET=utf8mb4 COMMENT='2ccm商品表';
CREATE TABLE `twoccm_std` (
`product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
`wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
`name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
`name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
`material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
`material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
`color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
`color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
`size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
`price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
`original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
`brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
`brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
`category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
`category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
`category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
`category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
`gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
`gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
`product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
`product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
`images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
`oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
`src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
`merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
`imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
`store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
`designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
`designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
`season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
PRIMARY KEY (`product_id`),
KEY `idx_src_data_md5` (`src_data_md5`),
KEY `idx_brand_std` (`brand_std`),
KEY `idx_category_name2_std` (`category_name2_std`),
KEY `idx_designer_id` (`designer_id`),
KEY `idx_update_time` (`update_time`),
KEY `idx_designer_id_std` (`designer_id_std`),
KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='twoccm标准映射表';
网友评论