美文网首页
20190722工作进展

20190722工作进展

作者: Songger | 来源:发表于2019-07-22 14:02 被阅读0次
  1. rm -rf ../../origin_deep_cluster_odps_8.tar.gz
    tar -cvzf ../../origin_deep_cluster_odps_8.tar.gz *

  2. 商品的title页数只要前几页
    表在这里:hs_tmp_dssm_1

去重 create table hs_tmp_dssm_2 as select distinct * from hs_tmp_dssm_1;

  1. 得到正样本
    create table hs_tmp_22 as select se_keyword_ws, title_ws, 1 as label from hs_tmp_dssm_2;

  2. 得到负样本

create table hs_tmp_24 as select se_keyword, count(*) as freq from hs_tmp_dssm_2 group by se_keyword order by freq;

create table hs_tmp_dssm_3 as select b.index, a.* from
(select * from hs_tmp_dssm_2)a join (select * from hs_tmp_25)b on a.se_keyword == b.se_keyword;

create table hs_tmp_dssm_4 as select index, title_ws from hs_tmp_dssm_3;

rename hs_udf_2 hs_udf_3 hs_udf_2*
add table hs_tmp_dssm_7 as hs_table_list_2;
add py /home/hengsong/hs_udf_9.py;
CREATE FUNCTION hs_negetive_samples_9 AS hs_udf_9.Processor USING hs_udf_9.py, hs_table_list_3;

create table hs_tmp_26 as
select graph_embedding:hs_negetive_samples_9(index, freq) as (index, title_id) from hs_tmp_29;

select graph_embedding:hs_negetive_samples_2(index, freq) as (index, title_id) from hs_tmp_27;

pai -name pytorch -project algo_public_dev -Dpython=3.6 -Dscript="file:///home/hengsong/origin_deep_cluster_odps_8.tar.gz" -DentryFile="test_query_with_title.py" -Dtables="odps://graph_embedding/tables/hs_tmp_dssm_6,odps://graph_embedding/tables/hs_tmp_27" -Doutputs="odps://graph_embedding/tables/hs_tmp_30" -Dbucket="oss://bucket-automl/" -Darn="acs:ram::1293303983251548:role/graph2018" -Dhost="cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="" -DworkerCount=1;

负采样运行程序:

http://logview.odps.aliyun-inc.com:8080/logview/?h=http://service-corp.odps.aliyun-inc.com/api&p=graph_embedding&i=20190722122808349g5viw8y_087c9cf0_f3d1_4899_a192_3e3af02f5f11&token=VGszRTBMeWY5cWVGZHMyNVREb2F1NlZEdDJnPSxPRFBTX09CTzoxMjkzMzAzOTgzMjUxNTQ4LDE1NjQ0MDMyODgseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL2dyYXBoX2VtYmVkZGluZy9pbnN0YW5jZXMvMjAxOTA3MjIxMjI4MDgzNDlnNXZpdzh5XzA4N2M5Y2YwX2YzZDFfNDg5OV9hMTkyXzNlM2FmMDJmNWYxMSJdfV0sIlZlcnNpb24iOiIxIn0=

  1. 统计title分词数量:
    create table hs_title_length as select REGEXP_COUNT(title_ws, ' ') from hs_tmp_dssm_1;
    总数量:9006956029

20: 483471878
<15: 5387341510
<18: 8160735058
取20更好一点

  1. id化

emb = tf.nn.embedding_lookup(emb_list[i], tf.string_to_hash_bucket(data_list[i], fea_max_list[i]))

  1. docker 多用户使用

sudo docker inspect --format "{{ .State.Pid }}" 44da6a70ba46
sudo nsenter --target 258026 --mount --uts --ipc --net --pid

相关文章

  • 20190722工作进展

    rm -rf ../../origin_deep_cluster_odps_8.tar.gztar -cvzf ....

  • 20190722

    今天虽然有很多时间都在旅途上,而且还经历了压车和晕车。但是我的个人体验是丰富的。我再一次确认,我是非常喜欢心理学,...

  • 【20190722】

    周一,困。 Yeo说今天工作不忙,但是很困。我也是啊。 昨晚看书到2点多,睡觉的时候已经快3点了,早上实在起不来。...

  • 20190722

    【今日行家行动】 001工作 002看《小狗钱钱》 003普拉提课 004英语学习 【今日行家见识】 001再次阅...

  • 20190722

    第一,热!热!!热!!!第二,聚精会神有效率。不错!第三,那些保持持续亢奋和专注的学习的同学,我严肃怀疑他们嗑药了...

  • 20190722

    【打卡始于20180318持续打卡于20190722 姓名:富智燚 单位:海南蔚蓝时代实业有限公司 361期努力一...

  • 20190722

    银行卡今天照例扣走了贷款的1500! 昨天,大学六个闺蜜来邢台相聚,我们选择去了焖锅达人。大家开心的说着笑着,好像...

  • 20190722

    今日四件要事,只完成了一件,上篆书课,汗! 今天难得丫头休息,跟她一起上午收拾屋子,我俩发面,蒸馒头,第一次做披萨...

  • 20190722

    又一次开始打卡,每天写一百字,开始新一轮的学习。 今天早上武汉同志分享了她的学习,我喜欢学什么?...

  • 20190722

    从今天开始,来看剽悍晨读的稿子,题目是《脸都不会洗,难怪你皮肤这么差》 ,来自日本美容外科医师,抗衰老整形专家宇津...

网友评论

      本文标题:20190722工作进展

      本文链接:https://www.haomeiwen.com/subject/xrlilctx.html