美文网首页
scp_merger

scp_merger

作者: luckyboy2 | 来源:发表于2019-12-23 19:55 被阅读0次

    scp_spider项目

    这个项目是爬虫模块,利用java语言编写,使用框架spiderman, gitee上有样例,https://gitee.com/l-weiwei/spidermanhttps://gitee.com/l-weiwei/Spiderman2,两个版本, 使用gradle作为项目的仓库构建。

    整个爬虫的架构图:


    image.png

    1.package com.luxury.dbuy; 这个是dbuy的爬虫代码。分为listPage和detailPage两个模块,其中DBuyListExtractor是列表页的解析,DBuyDetailExtractor是详情页的解析。(已停用)

    2.package com.luxury.farfetch; 这个是farfetch的爬虫代码。分为homePage和listPage以及detailPage模块,以及相应的解析,爬取的是farfetch PC端的数据,由于之前的分页按钮,被加密了,所有通过列表页的total_products来获取总页数。

    3.package com.luxury.michbuyer;是michbuyer的爬虫代码,分为login和searchPage以及detailPage,login获取token,5分钟刷新一次,通过查询页获取商品集合,MiChSearchExtractor为searchPage的解析器,MiChDetailExtractor为detailPage的解析器。

    4.package com.luxury.netAPorter;为netAPorter爬虫的代码。爬取的是PC端的页面,利用xpath解析器,来提起商品.

    5.package com.luxury.secoo;为寺库的爬虫代码。爬取的是secoo的PC端,利用xpath来提取页面的商品数据。

    6.package com.luxury.twoccm;为twoccm的爬虫代码,分为category的homePage和listPage以及detailPage。TwoCcmListExtractor为listPage的解析器,TwoCcmDetailExtractor为detailPage的解析器。

    具体的参数配置,比如爬虫的时间,历史数据清除时间,代理IP的设置见application.yml。

    image.png

    scp_web项目

    这个项目是整个项目的前端,利用react编写,样例https://github.com/ant-design/ant-design

    scp_merger项目

    这个项目是数据聚合处理以及接口模块,内容比较复杂,使用springboot+weka构建,数据连接池使用druid,双数据源,分别覆盖作用不同的包。
    1.scheduler模块(定时任务):
    1)缓存各个平台的历史数据到redis中,CacheRawProductInfoTask, 从各个平台的原始数据表缓存数据到redis。
    2)图像上传到aliyun的OSS服务器,便于后面的图像对比,5分钟执行一次。
    3)图像对比定时任务,resize缩小图片然后对比。
    4)同步im数据定时任务,每天3点执行。
    5)各个平台商品标注化的定时任务,如果是新商品则在响应的std表中新建商品,否则更新。


    image.png

    具体流程如脑图:http://naotu.baidu.com/file/a275e9b183b64bc1556264cd57423303?token=543b2acc6dcd3872

    商品相似比较流程:


    image.png

    各个爬虫平台各个属性的权重设计在:FeatureSimilarityWeight类中

    2.controller模块:
    最主要controller如下:
    1)商品标注(正向标注)ProductLabelController: 前端标注页面http://mer.shechipin.styleroom.cn:8080/html/imProductLabelDetail.html
    从IM表中获取待匹配标注的商品,以标注,取出redis中该商品相似的商品,用于人工标注,如果redis没有,就从数据库中查询。
    2)页面商品查询(ProductStdController): 用于页面商品的查询,以及相似商品的查询。
    地址:http://we.shechipin.styleroom.cn/#/products
    3)反向标注ThirdProductLabelController:前端标注页面http://mer.shechipin.styleroom.cn:8080/html/thirdProductLabelDetail.html
    从第三方平台的商品中获取待标注的商品和im对比,标注。
    4)weka模型接口WekaController:新建模型(buildJ48Model),根据数据库人工标注结果训练weka模型 模型文件放到config文件夹下面。将指定名称文件设置当前使用模型(loadJ48Model),查询当前正在使用的模型的summary描述(j48Model),查询当前可用model列表(listModel).

    1. 登录权限的设计在WwwAuthFilter类中,服务器使用了nginx的用户名和密码在config路径下的auth.properties中,定时任务的配置都在config路径下的commonConfig.properties中。
    image.png

    服务器部署:


    image.png image.png

    数据库模型图:


    商品模型图.png 类目颜色品牌模型图.png

    表设计DDL:

    CREATE TABLE `brand` (
      `id` int(11) NOT NULL AUTO_INCREMENT,
      `brand_name` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
      `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
      PRIMARY KEY (`id`),
      KEY `idx_brand_name` (`brand_name`)
    ) ENGINE=InnoDB AUTO_INCREMENT=2749 DEFAULT CHARSET=utf8;
    
    CREATE TABLE `brand_map` (
      `id` int(11) NOT NULL AUTO_INCREMENT,
      `wrapper_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站名称',
      `wrapper_brand_name` varchar(100) DEFAULT '' COMMENT '网站中品牌名称',
      `brand_name_std` varchar(100) NOT NULL DEFAULT '' COMMENT '标准品牌名称',
      `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
      PRIMARY KEY (`id`),
      KEY `idx_wrapper_name_brand_name` (`wrapper_name`,`wrapper_brand_name`)
    ) ENGINE=InnoDB AUTO_INCREMENT=1949 DEFAULT CHARSET=utf8;
    
    CREATE TABLE `category_map` (
      `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键ID',
      `wrapper_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站名称',
      `wrapper_category_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站中分类名称',
      `category_std_id` int(11) NOT NULL DEFAULT '0' COMMENT '标准分类iD,对应category_std表中的id',
      `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
      PRIMARY KEY (`id`),
      UNIQUE KEY `uniq_wrapper_name_category_name` (`wrapper_name`,`wrapper_category_name`),
      KEY `idx_category_std_id` (`category_std_id`)
    ) ENGINE=InnoDB AUTO_INCREMENT=2850 DEFAULT CHARSET=utf8mb4 COMMENT='分类标准映射表';
    
    CREATE TABLE `category_std` (
      `id` int(11) NOT NULL AUTO_INCREMENT,
      `category_name` varchar(10) NOT NULL DEFAULT '' COMMENT '标准分类名称',
      `parent_category_id` int(11) NOT NULL DEFAULT '0' COMMENT '父分类ID',
      `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
      PRIMARY KEY (`id`),
      UNIQUE KEY `uniq` (`category_name`),
      KEY `idx_parent_category_id` (`parent_category_id`)
    ) ENGINE=InnoDB AUTO_INCREMENT=1052 DEFAULT CHARSET=utf8mb4 COMMENT='标准分类表';
    
    CREATE TABLE `color_map` (
      `id` int(11) NOT NULL AUTO_INCREMENT,
      `wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '网站名称',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
      `wrapper_color` varchar(100) NOT NULL DEFAULT '' COMMENT '网站原文颜色',
      `wrapper_trans_color` varchar(100) NOT NULL DEFAULT '' COMMENT '网站原文颜色翻译成中文颜色',
      `labeled_color` varchar(100) NOT NULL DEFAULT '' COMMENT '被标注的颜色',
      `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
      PRIMARY KEY (`id`),
      UNIQUE KEY `uniq_wrapper_name_color` (`wrapper_name`,`brand`,`wrapper_color`)
    ) ENGINE=InnoDB AUTO_INCREMENT=41208 DEFAULT CHARSET=utf8mb4;
    
    CREATE TABLE `dbuy` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
      `name` varchar(255) DEFAULT NULL,
      `brand` varchar(64) DEFAULT NULL,
      `prdc` varchar(32) DEFAULT NULL,
      `sex` varchar(6) DEFAULT NULL,
      `material` varchar(255) DEFAULT NULL,
      `dimension` varchar(64) DEFAULT NULL,
      `third_party_seq` varchar(32) DEFAULT NULL,
      `category_name1` varchar(32) DEFAULT NULL,
      `category_name2` varchar(32) DEFAULT NULL,
      `category_name1_std` varchar(32) DEFAULT NULL,
      `category_name2_std` varchar(32) DEFAULT NULL,
      `intra_mirror_id` varchar(16) DEFAULT NULL,
      `size` text,
      `store` varchar(255) DEFAULT NULL,
      `price` int(11) DEFAULT '0',
      `t_price` int(11) DEFAULT '0',
      `china_yuan` int(11) DEFAULT '0',
      `description` text,
      `p_pic` text,
      `g_pic` text,
      `color` varchar(16) DEFAULT NULL,
      `created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
      `designer_id` varchar(50) NOT NULL DEFAULT '' COMMENT '特定编号',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
      PRIMARY KEY (`id`),
      KEY `brand` (`brand`),
      KEY `idx_src_data_md5` (`src_data_md5`) USING BTREE,
      KEY `idx_designer_id` (`designer_id`),
      KEY `idx_created_at` (`created_at`)
    ) ENGINE=InnoDB AUTO_INCREMENT=2124189 DEFAULT CHARSET=utf8;
    
    CREATE TABLE `dbuy_std` (
      `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
      `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
      `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
      `material` varchar(100) NOT NULL DEFAULT '' COMMENT '材料',
      `material_std` varchar(100) NOT NULL DEFAULT '' COMMENT '材料标准映射',
      `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
      `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
      `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
      `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
      `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
      `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
      `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
      `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
      `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
      `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
      `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
      `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
      `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
      `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
      `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
      `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
      `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
      `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
      `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
      `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
      `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
      PRIMARY KEY (`product_id`),
      KEY `idx_src_data_md5` (`src_data_md5`),
      KEY `idx_brand_std` (`brand_std`),
      KEY `idx_category_name2_std` (`category_name2_std`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_designer_id` (`designer_id`),
      KEY `idx_designer_id_std` (`designer_id_std`),
      KEY `idx_category_name1_std` (`category_name1_std`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='dbuy标准映射表';
    
    CREATE TABLE `farfetch` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
      `name` varchar(255) DEFAULT NULL,
      `brand` varchar(64) DEFAULT NULL,
      `prdc` varchar(32) DEFAULT NULL,
      `sex` varchar(6) DEFAULT NULL,
      `material` varchar(255) DEFAULT NULL,
      `dimension` varchar(64) DEFAULT NULL,
      `third_party_seq` varchar(32) DEFAULT NULL,
      `category_name1` varchar(32) DEFAULT NULL,
      `category_name2` varchar(32) DEFAULT NULL,
      `category_name1_std` varchar(32) DEFAULT NULL,
      `category_name2_std` varchar(32) DEFAULT NULL,
      `intra_mirror_id` varchar(16) DEFAULT NULL,
      `size` text,
      `store` varchar(255) DEFAULT NULL,
      `store_name` varchar(255) CHARACTER SET utf8mb4 DEFAULT NULL,
      `price` int(11) DEFAULT '0',
      `t_price` int(11) DEFAULT '0',
      `china_yuan` int(11) DEFAULT '0',
      `description` text,
      `p_pic` text,
      `g_pic` text,
      `color` varchar(16) DEFAULT NULL,
      `created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
      `designer_style_id` varchar(32) DEFAULT NULL,
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
      PRIMARY KEY (`id`),
      KEY `brand` (`brand`),
      KEY `idx_created_at` (`created_at`)
    ) ENGINE=InnoDB AUTO_INCREMENT=15939757 DEFAULT CHARSET=utf8;
    
    CREATE TABLE `farfetch_std` (
      `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
      `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
      `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
      `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
      `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
      `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
      `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
      `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
      `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
      `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
      `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
      `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
      `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
      `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
      `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
      `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
      `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
      `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
      `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
      `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
      `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
      `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
      `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
      `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
      `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
      `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
      PRIMARY KEY (`product_id`),
      KEY `idx_src_data_md5` (`src_data_md5`),
      KEY `idx_brand_std` (`brand_std`),
      KEY `idx_category_name2_std` (`category_name2_std`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_designer_id` (`designer_id`),
      KEY `idx_designer_id_std` (`designer_id_std`),
      KEY `idx_category_name1_std` (`category_name1_std`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='farfetch标准映射表';
    
    CREATE TABLE `im` (
      `product_id` bigint(64) NOT NULL DEFAULT '0' COMMENT '商品ID(唯一标识)',
      `name` varchar(256) NOT NULL DEFAULT '' COMMENT '商品名',
      `value_ColorCode` varchar(1024) NOT NULL DEFAULT '' COMMENT '颜色',
      `value_Composition` varchar(1024) NOT NULL DEFAULT '' COMMENT '材料',
      `min_im_price` decimal(16,4) NOT NULL DEFAULT '0.0000' COMMENT '售价',
      `min_retail_price` decimal(16,4) NOT NULL DEFAULT '0.0000' COMMENT '原价',
      `english_name` varchar(256) NOT NULL DEFAULT '' COMMENT '品牌',
      `chinese_name_category1` varchar(256) NOT NULL DEFAULT '' COMMENT '一级分类',
      `chinese_name_category` varchar(256) NOT NULL DEFAULT '' COMMENT '二级分类',
      `chinese_name_category2` varchar(256) NOT NULL DEFAULT '' COMMENT '性别',
      `value_MadeIn` varchar(1024) NOT NULL DEFAULT '' COMMENT '产地',
      `cover_img` text COMMENT '商品图片',
      `cover_img_spu` text COMMENT '商品图片',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
      `created_at_vendor` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
      `designer_id` varchar(50) NOT NULL DEFAULT '' COMMENT '特定编号',
      `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
      PRIMARY KEY (`product_id`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_src_data_md5` (`src_data_md5`),
      KEY `idx_designer_id` (`designer_id`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='im商品数据表';
    
    CREATE TABLE `im_std` (
      `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
      `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
      `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
      `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
      `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
      `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
      `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
      `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
      `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
      `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
      `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
      `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
      `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
      `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
      `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
      `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
      `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
      `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
      `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
      `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
      `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
      `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
      `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
      `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
      `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
      `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
      PRIMARY KEY (`product_id`),
      KEY `idx_src_data_md5` (`src_data_md5`),
      KEY `idx_brand_std` (`brand_std`),
      KEY `idx_category_name2_std` (`category_name2_std`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_designer_id` (`designer_id`),
      KEY `idx_designer_id_std` (`designer_id_std`),
      KEY `idx_category_name1_std` (`category_name1_std`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='im标准映射表';
    
    CREATE TABLE `image_color` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫名称(目前只有im)',
      `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID',
      `image_url` varchar(200) NOT NULL DEFAULT '' COMMENT '商品图片URL',
      `color_info` varchar(500) NOT NULL DEFAULT '' COMMENT '商品图片对应的颜色分数值(json数组)',
      `calculate_color` varchar(12) NOT NULL DEFAULT '' COMMENT '推算颜色',
      `mark_status` varchar(12) DEFAULT NULL COMMENT 'marking status',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `pic_pos` tinyint(4) DEFAULT '-1' COMMENT 'pic pos in production table after color_info',
      `image_md5` varchar(32) DEFAULT '',
      PRIMARY KEY (`id`),
      UNIQUE KEY `uniq_image_md5` (`image_md5`),
      KEY `idx_wrapper_product_id` (`wrapper_name`,`product_id`)
    ) ENGINE=InnoDB AUTO_INCREMENT=222258 DEFAULT CHARSET=utf8mb4 COMMENT='图片颜色表';
    
    CREATE TABLE `label_log` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
      `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
      `label_type` tinyint(4) NOT NULL DEFAULT '1' COMMENT '标注类型',
      `src_wrapper_name` varchar(20) NOT NULL DEFAULT '',
      `src_product_id` varchar(50) NOT NULL DEFAULT '',
      `target_wrapper_name` varchar(20) NOT NULL DEFAULT '',
      `target_product_id` varchar(50) NOT NULL DEFAULT '',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
      PRIMARY KEY (`id`),
      KEY `idx_operate_name_update_time` (`operate_name`,`update_time`) USING BTREE,
      KEY `idx_label_type` (`label_type`) USING BTREE,
      KEY `idx_update_time` (`update_time`) USING BTREE
    ) ENGINE=InnoDB AUTO_INCREMENT=863877 DEFAULT CHARSET=utf8mb4;
    
    CREATE TABLE `michbuyer` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
      `name` varchar(255) DEFAULT NULL,
      `brand` varchar(64) DEFAULT NULL,
      `prdc` varchar(32) DEFAULT NULL,
      `sex` varchar(6) DEFAULT NULL,
      `material` varchar(64) DEFAULT NULL,
      `dimension` varchar(64) DEFAULT NULL,
      `third_party_seq` varchar(32) DEFAULT NULL,
      `category_name1` varchar(32) DEFAULT NULL,
      `category_name2` varchar(32) DEFAULT NULL,
      `category_name1_std` varchar(32) DEFAULT NULL,
      `category_name2_std` varchar(32) DEFAULT NULL,
      `intra_mirror_id` varchar(16) DEFAULT NULL,
      `size` text,
      `store` varchar(64) DEFAULT NULL,
      `price` int(11) DEFAULT '0',
      `t_price` int(11) DEFAULT '0',
      `china_yuan` int(11) DEFAULT '0',
      `description` text,
      `p_pic` text,
      `g_pic` text,
      `color` varchar(16) DEFAULT NULL,
      `created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
      PRIMARY KEY (`id`),
      KEY `brand` (`brand`),
      KEY `idx_created_at` (`created_at`)
    ) ENGINE=InnoDB AUTO_INCREMENT=2233209 DEFAULT CHARSET=utf8;
    
    CREATE TABLE `michbuyer_std` (
      `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
      `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
      `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
      `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
      `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
      `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
      `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
      `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
      `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
      `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
      `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
      `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
      `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
      `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
      `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
      `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
      `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
      `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
      `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
      `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
      `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
      `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
      `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
      `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
      `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
      `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
      PRIMARY KEY (`product_id`),
      KEY `idx_src_data_md5` (`src_data_md5`),
      KEY `idx_brand_std` (`brand_std`),
      KEY `idx_category_name2_std` (`category_name2_std`),
      KEY `idx_designer_id` (`designer_id`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_designer_id_std` (`designer_id_std`),
      KEY `idx_category_name1_std` (`category_name1_std`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='michbuyer标准映射表';
    
    CREATE TABLE `net_a_porter` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
      `product_id` bigint(20) unsigned NOT NULL COMMENT '商品ID',
      `name` varchar(300) NOT NULL DEFAULT '' COMMENT '商品名称',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
      `prdc` varchar(32) DEFAULT NULL COMMENT '产地',
      `category_name1` varchar(50) NOT NULL DEFAULT '' COMMENT '一级分类名称',
      `category_name2` varchar(32) DEFAULT NULL COMMENT '二级分类名称',
      `category_name1_std` varchar(32) DEFAULT NULL,
      `category_name2_std` varchar(32) DEFAULT NULL,
      `sex` varchar(20) NOT NULL DEFAULT '' COMMENT '商品所属性别',
      `size` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
      `store` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
      `color` varchar(30) NOT NULL DEFAULT '' COMMENT '颜色',
      `material` varchar(64) DEFAULT NULL COMMENT '材质',
      `price` int(11) NOT NULL DEFAULT '0' COMMENT '商品价格(美元)',
      `original_price` int(11) NOT NULL DEFAULT '0' COMMENT '商品原价',
      `china_yuan` int(11) NOT NULL DEFAULT '0' COMMENT '人民币价格',
      `description` varchar(1000) NOT NULL DEFAULT '' COMMENT '商品详细描述信息',
      `p_pic` varchar(2000) NOT NULL DEFAULT '' COMMENT '商品图片(json数组)',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
      PRIMARY KEY (`id`),
      KEY `idx_product_id` (`product_id`) USING BTREE,
      KEY `idx_create_time` (`create_time`) USING BTREE
    ) ENGINE=InnoDB AUTO_INCREMENT=2117580 DEFAULT CHARSET=utf8mb4 COMMENT='net-a-porter商品表';
    
    CREATE TABLE `netaporter_std` (
      `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
      `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
      `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
      `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
      `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
      `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
      `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
      `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
      `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
      `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
      `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
      `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
      `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
      `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
      `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
      `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
      `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
      `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
      `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
      `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
      `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
      `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
      `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
      `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
      `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
      `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
      PRIMARY KEY (`product_id`),
      KEY `idx_src_data_md5` (`src_data_md5`),
      KEY `idx_brand_std` (`brand_std`),
      KEY `idx_category_name2_std` (`category_name2_std`),
      KEY `idx_designer_id` (`designer_id`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_designer_id_std` (`designer_id_std`),
      KEY `idx_category_name1_std` (`category_name1_std`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='netAPorter标准映射表';
    
    CREATE TABLE `product_date` (
      `p_date` date NOT NULL COMMENT '辅助表查日期',
      PRIMARY KEY (`p_date`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
    
    CREATE TABLE `product_mapping` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
      `im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
      `wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
      `im_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT 'IM商品图片存放目录',
      `wrapper_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT '第三方商品图片存放目录',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
      `mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
      `merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
      `sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
      `composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
      `weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
      `name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
      `area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
      `material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
      `designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
      `image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
      PRIMARY KEY (`id`),
      KEY `idx_im_product_id` (`im_product_id`),
      KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_wrapper_id` (`wrapper_product_id`) USING BTREE
    ) ENGINE=InnoDB AUTO_INCREMENT=1060335 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品关联映射表';
    
    CREATE TABLE `product_mapping_check` (
      `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '自增主键',
      `mapping_id` bigint(20) NOT NULL COMMENT 'product_mapping_id',
      `im_product_id` varchar(50) NOT NULL COMMENT 'im商品的id',
      `wrapper_name` varchar(20) CHARACTER SET utf8 NOT NULL COMMENT '第三方爬虫名字',
      `wrapper_product_id` varchar(50) NOT NULL COMMENT '第三方爬虫的商品id',
      `mapping_operate_name` varchar(100) NOT NULL COMMENT '标注人',
      `mapping_result` tinyint(4) NOT NULL COMMENT 'mapping结果,0表示标注错误,1表示标注成功',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
      PRIMARY KEY (`id`),
      UNIQUE KEY `mapping_id` (`mapping_id`) USING BTREE COMMENT '每个mapping_id只能插入一次,否则修改'
    ) ENGINE=InnoDB AUTO_INCREMENT=81309 DEFAULT CHARSET=utf8mb4;
    
    CREATE TABLE `product_mapping_error` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
      `im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
      `wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
      `im_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT 'IM商品图片存放目录',
      `wrapper_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT '第三方商品图片存放目录',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
      `mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
      `merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
      `sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
      `composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
      `weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
      `name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
      `area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
      `material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
      `designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
      `image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
      `delete_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '标注错误删除时间',
      PRIMARY KEY (`id`),
      KEY `idx_im_product_id` (`im_product_id`),
      KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
      KEY `idx_update_time` (`update_time`)
    ) ENGINE=InnoDB AUTO_INCREMENT=1875 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品标注错误的映射表';
    
    CREATE TABLE `product_not_mapping` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
      `im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
      `wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
      `mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
      `merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
      `sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
      `composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
      `weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
      `name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
      `area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
      `material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
      `price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
      `designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
      `image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
      PRIMARY KEY (`id`),
      KEY `idx_im_product_id` (`im_product_id`),
      KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
      KEY `idx_update_time` (`update_time`)
    ) ENGINE=InnoDB AUTO_INCREMENT=7710102 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品没有关联上的映射表';
    
    CREATE TABLE `product_skip_mapping` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
      `src_wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '原网站名称',
      `src_product_id` varchar(100) NOT NULL DEFAULT '' COMMENT '原商品ID',
      `target_wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '目标网站名称',
      `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
      `mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
      `merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
      PRIMARY KEY (`id`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_src_wrapper_name_product_id` (`src_wrapper_name`,`src_product_id`)
    ) ENGINE=InnoDB AUTO_INCREMENT=718362 DEFAULT CHARSET=utf8mb4 COMMENT='标注跳过的商品信息表';
    
    CREATE TABLE `secoo` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
      `name` varchar(128) DEFAULT NULL COMMENT '物品名称',
      `brand` varchar(64) DEFAULT NULL COMMENT '品牌',
      `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准名称',
      `category_name` varchar(32) DEFAULT NULL COMMENT '分类名称',
      `category_name1_std` varchar(50) DEFAULT NULL COMMENT '标准一级分类名称',
      `small_category_name` varchar(32) DEFAULT NULL,
      `category_name2_std` varchar(50) DEFAULT NULL COMMENT '标准二级分类名称',
      `prdc` varchar(32) DEFAULT NULL COMMENT '产地',
      `product_area_std` varchar(100) NOT NULL DEFAULT '' COMMENT '产地标准名称',
      `sex` varchar(6) DEFAULT NULL COMMENT '适用人群',
      `material` varchar(64) DEFAULT NULL,
      `dimension` varchar(64) DEFAULT NULL COMMENT '尺寸',
      `third_party_seq` varchar(32) DEFAULT NULL COMMENT '第三方id',
      `size` varchar(64) DEFAULT NULL,
      `store` varchar(64) DEFAULT NULL,
      `price` int(11) DEFAULT '0',
      `description` varchar(256) DEFAULT NULL,
      `p_pic` text,
      `g_pic` text,
      `color` varchar(32) DEFAULT NULL COMMENT '颜色',
      `item_url` varchar(100) DEFAULT NULL COMMENT '物品url',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
      PRIMARY KEY (`id`),
      KEY `brand` (`brand`),
      KEY `group_name` (`category_name`),
      KEY `idx_create_time` (`create_time`)
    ) ENGINE=InnoDB AUTO_INCREMENT=10907647 DEFAULT CHARSET=utf8;
    
    CREATE TABLE `secoo_std` (
      `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
      `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
      `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
      `material` varchar(100) NOT NULL DEFAULT '' COMMENT '材料',
      `material_std` varchar(100) NOT NULL DEFAULT '' COMMENT '材料标准映射',
      `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
      `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
      `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
      `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
      `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
      `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
      `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
      `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
      `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
      `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
      `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
      `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
      `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
      `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
      `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
      `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
      `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
      `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
      `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
      `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
      `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
      PRIMARY KEY (`product_id`),
      KEY `idx_src_data_md5` (`src_data_md5`),
      KEY `idx_brand_std` (`brand_std`),
      KEY `idx_category_name2_std` (`category_name2_std`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_designer_id` (`designer_id`),
      KEY `idx_designer_id_std` (`designer_id_std`),
      KEY `idx_category_name1_std` (`category_name1_std`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='secoo标准映射表';
    
    CREATE TABLE `two_ccm` (
      `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
      `product_id` bigint(20) unsigned NOT NULL COMMENT '商品ID',
      `sku` varchar(50) NOT NULL DEFAULT '' COMMENT '商品SKU',
      `name` varchar(300) NOT NULL DEFAULT '' COMMENT '商品名称',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
      `category_name1` varchar(50) NOT NULL DEFAULT '' COMMENT '一级分类名称',
      `category_name2` varchar(50) NOT NULL DEFAULT '' COMMENT '二级分类名称',
      `sex` varchar(20) NOT NULL DEFAULT '' COMMENT '商品所属性别',
      `size` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
      `color` varchar(30) NOT NULL DEFAULT '' COMMENT '颜色',
      `is_in_stock` tinyint(2) NOT NULL DEFAULT '1' COMMENT '是否有库存,0:否,1:是',
      `price` int(11) NOT NULL DEFAULT '0' COMMENT '当前售卖价格',
      `original_price` int(11) NOT NULL DEFAULT '0' COMMENT '商品原价',
      `china_yuan` int(11) NOT NULL DEFAULT '0' COMMENT '人民币价格(等于price)',
      `description` varchar(1000) NOT NULL DEFAULT '' COMMENT '商品详细描述信息',
      `p_pic` varchar(2000) NOT NULL DEFAULT '' COMMENT '商品图片(json数组)',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
      PRIMARY KEY (`id`),
      KEY `idx_product_id` (`product_id`) USING BTREE,
      KEY `idx_create_time` (`create_time`) USING BTREE
    ) ENGINE=InnoDB AUTO_INCREMENT=2321779 DEFAULT CHARSET=utf8mb4 COMMENT='2ccm商品表';
    
    CREATE TABLE `twoccm_std` (
      `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
      `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
      `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
      `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
      `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
      `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
      `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
      `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
      `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
      `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
      `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
      `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
      `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
      `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
      `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
      `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
      `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
      `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
      `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
      `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
      `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
      `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
      `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
      `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
      `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
      `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
      `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
      `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
      `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
      `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
      `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
      `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
      PRIMARY KEY (`product_id`),
      KEY `idx_src_data_md5` (`src_data_md5`),
      KEY `idx_brand_std` (`brand_std`),
      KEY `idx_category_name2_std` (`category_name2_std`),
      KEY `idx_designer_id` (`designer_id`),
      KEY `idx_update_time` (`update_time`),
      KEY `idx_designer_id_std` (`designer_id_std`),
      KEY `idx_category_name1_std` (`category_name1_std`)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='twoccm标准映射表';
    
    

    相关文章

      网友评论

          本文标题:scp_merger

          本文链接:https://www.haomeiwen.com/subject/tujtoctx.html