- 基于预设中心点的聚类(title数据)
cluster 数量 | 表名 | 收敛epoch | 收敛时间 | 备注 |
---|---|---|---|---|
10 | 2 | 458 | 02:08:08 | 预设中心点,结果向少数几个类靠拢,预设中心点的指向型并不好 |
10 | 2 | 458 | 02:08:08 | 没有预设中心点,结果向少数几个类靠拢,可能是程序的问题 |
- query cluser命令
pai -name pytorch -project algo_public_dev -Dpython=3.6 -Dscript="file:///apsarapangu/disk1/hengsong.lhs/origin_deep_cluster_odps_6.tar.gz" -DentryFile="getClusterCenterofQuery.py" -Dtables="odps://graph_embedding/tables/hs_jingyan_query_related_top_query_1" -Doutputs="odps://graph_embedding/tables/hs_jingyan_query_cluster_result_1" -Dbucket="oss://bucket-automl/" -Darn="acs:ram::1293303983251548:role/graph2018" -Dhost="cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="--dataset mine_dataset" -DworkerCount=10;
pai -name pytorch -project algo_public_dev -Dpython=3.6 -Dscript="file:///apsarapangu/disk1/hengsong.lhs/origin_deep_cluster_odps_5.tar.gz" -DentryFile="clusterUsingPrecenter.py" -Dtables="odps://graph_embedding/tables/hs_jingyan_query_related_video_pool_2_2" -Dbucket="oss://bucket-automl/" -Darn="acs:ram::1293303983251548:role/graph2018" -Dhost="cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="--dataset mine_dataset" -DworkerCount=10;
pai -name pytorch -project algo_public_dev -Dpython=3.6 -Dscript="file:///apsarapangu/disk1/hengsong.lhs/origin_deep_cluster_odps_5.tar.gz" -DentryFile="clusterUsingPrecenter.py" -Dtables="odps://graph_embedding/tables/hs_jingyan_query_related_video_pool_2_3" -Doutputs="odps://graph_embedding/tables/hs_jingyan_query_cluster_result_title_1" -Dbucket="oss://bucket-automl/" -Darn="acs:ram::1293303983251548:role/graph2018" -Dhost="cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="--dataset mine_dataset" -DworkerCount=10;
- 还是存在query聚类不收敛的问题
pai -name pytorch -project algo_public_dev -Dpython=3.6 -Dscript="file:///apsarapangu/disk1/hengsong.lhs/origin_deep_cluster_odps_6.tar.gz" -DentryFile="getClusterCenterofQuery.py" -Dtables="odps://graph_embedding_intern/tables/zj_gul_videos_embedding_infos_" -Dbucket="oss://bucket-automl/" -Darn="acs:ram::1293303983251548:role/graph2018" -Dhost="cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="--dataset mine_dataset" -DworkerCount=10;
-
阈值确定方式:使用hard的阈值作为初始阈值,在其基础上进行优化
-
video_emb 测试
20190703095509454gpys0yyi2
- title_2 测试 without precenter
20190703100237695gnucrzvj2
- title_2 测试 with precenter
20190703095801980grh5nu69
网友评论