昨天工作:
- 尝试使用关键字对应的方式进行query和title的对应,可以得到非常准确的结果,关联到的query有8127条,商品有18.8w条,结果在hs_tmp_339中。分析:
(1)有2496条query关联到的商品超过90条,这些query与商品的关联完全可以通过这种方式来进行。
(2)4345条query对应的商品数量超过30条,这些query可以通过这种方式得到最相近的title,可以通过dssm的方式对结果进行补充。
(3)其他的query只能使用神经网络的方式进行对应。 - 使用ugc数据进行inference的部分结果在hs_tmp_345中。有很多bad case,可能需要在inference之前使用类目过滤等方式进行一下预处理。
- 图片feature还在提取中。
今天计划:
完善转正答辩ppt
- 这个bad case的原因:
CHICYOU黑白两色吊带不规则V领包臀显瘦性感经典修身连衣裙小黑裙
206835022540
select * from jl_jingyan_query_related_video_pool where where ds=max_pt('tbcdm.dim_tb_itm_image') and id = 206835022540;
create table hs_tmp_315 as select item_id, concat('https://img.alicdn.com/imgextra/',image_url) as url, image_position, type from tbcdm.dim_tb_itm_image where ds=max_pt('tbcdm.dim_tb_itm_image');
- 调参
pai -name tensorflow140 -Dscript="file:///home/hengsong/origin_deep_cluster_odps_8.tar.gz" -DentryFile="inference_v10.py" -Dcluster='{"worker":{"count":1, "cpu":200, "memory":4000}, "ps":{"count":1, "cpu":200, "memory":5000}}' -DuseSparseClusterSchema=True -DenableDynamicCluster=True -Dtables="odps://graph_embedding/tables/hs_train_data_dssm_v2_7,odps://graph_embedding/tables/hs_test_data_dssm_v2_7,odps://graph_embedding/tables/hs_tmp_267" -Doutputs="odps://graph_embedding/tables/hs_dssm_result_5" -DcheckpointDir="oss://bucket-automl/hengsong/?role_arn=acs:ram::1293303983251548:role/graph2018&host=cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="--learning_rate=3e-4 --batch_size=1024 --is_save_model=True --attention_type=1 --num_epochs=1 --ckpt=hs_ugc_video_2e_4.ckpt" -DuseSparseClusterSchema=True;
1 : 20190830115537491g7b0nvyi2
3 : 20190830095434608g43s7hfj2
- mv-dssm
pai -name tensorflow140 -Dscript="file:///home/hengsong/origin_deep_cluster_odps_8.tar.gz" -DentryFile="train_mv_dssm_v3.py" -Dcluster='{"worker":{"count":1, "cpu":200, "memory":4000}, "ps":{"count":1, "cpu":200, "memory":5000}}' -DuseSparseClusterSchema=True -DenableDynamicCluster=True -Dtables="odps://graph_embedding/tables/hs_train_data_dssm_v2_8,odps://graph_embedding/tables/hs_test_data_dssm_v2_8,odps://graph_embedding/tables/hs_tmp_267" -Doutputs="odps://graph_embedding/tables/hs_dssm_result_5" -DcheckpointDir="oss://bucket-automl/hengsong/?role_arn=acs:ram::1293303983251548:role/graph2018&host=cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="--learning_rate=3e-4 --batch_size=1024 --is_save_model=True --attention_type=1 --num_epochs=1 --ckpt=hs_ugc_video_2e_4.ckpt" -DuseSparseClusterSchema=True;
20190903024511564gmmpvvyi2
网友评论