美文网首页
tensorflow 摸索之wide&deep

tensorflow 摸索之wide&deep

作者: 张虾米试错 | 来源:发表于2019-03-12 20:40 被阅读0次

    最近尝试将tensorflow tutorial中wide&deep模型改成自己的数据集,本篇只是为了记录摸索的过程以及踩过的坑。

    这次尝试中犯了两个严重错误:

    1. 总想一口气把模型或者说代码改完,结果却是bug不断,最后仍然不得不通过一步步注释找问题。
    2. 忽略了log,以及保存错误信息。

    已解决的问题

    problem 1

    Cast string to float is not supported

    这次的数据处理我是用pandas存储的,有些缺失值在之前没有处理,因此在使用tf.decode\_csvtf.estimator.inputs.pandas\_input\_fn的时候会因为无法识别nan而报错。另外,要说明的是,对于字符串型pandas会默认把空字符串当做nan;这次就是在这个地方出错的。

    另外,在此说明下,tf.decode\_csvtf.estimator.inputs.pandas\_input\_fn的功能应该是差不多的,但是我自己更喜欢后者,因为这样改动pandas数据更灵活,当然也可能是因为我还没有熟练使用前者。

    problem 2

    ValueError: column_name: age vocabulary dtype must be string or integer. dtype: <dtype: 'float64'>.

    age是归一化后的值,本来为float型,但是在这次特征处理中我打算将它作为categorical型处理。但是categorical\_column\_with\_vocabulary\_list只支持int和string型,因此我需要先做类型转换。

    未解决的问题

    problem 1

    multi-hot的表示

    import tensorflow as tf
    from tensorflow import feature_column
    from tensorflow.python.feature_column.feature_column import _LazyBuilder
    
    def test_categorical_column_with_vocabulary_list():
        color_data = {'color': [['R', 'R'], ['G', 'R'], ['B', 'G'], ['A', 'A']]}  # 4行样本
        builder = _LazyBuilder(color_data)
        color_column = feature_column.categorical_column_with_vocabulary_list(
            'color', ['R', 'G', 'B'], dtype=tf.string, default_value=-1
        )
    
        color_column_tensor = color_column._get_sparse_tensors(builder)
        with tf.Session() as session:
            session.run(tf.global_variables_initializer())
            session.run(tf.tables_initializer())
            print(session.run([color_column_tensor.id_tensor]))
    
        # 将稀疏的转换成dense,也就是one-hot形式,只是multi-hot
        color_column_identy = feature_column.indicator_column(color_column)
        color_dense_tensor = feature_column.input_layer(color_data, [color_column_identy])
        with tf.Session() as session:
            session.run(tf.global_variables_initializer())
            session.run(tf.tables_initializer())
            print('use input_layer' + '_' * 40)
            print(session.run([color_dense_tensor]))
    
    test_categorical_column_with_vocabulary_list()
    
    [SparseTensorValue(indices=array([[0, 0],
           [0, 1],
           [1, 0],
           [1, 1],
           [2, 0],
           [2, 1],
           [3, 0],
           [3, 1]], dtype=int64), values=array([ 0,  0,  1,  0,  2,  1, -1, -1], dtype=int64), dense_shape=array([4, 2], dtype=int64))]
    use input_layer________________________________________
    [array([[2., 0., 0.],
           [1., 1., 0.],
           [0., 1., 1.],
           [0., 0., 0.]], dtype=float32)]
    

    我做了额外尝试,如果color\_data每个样本的长度不同,会报类似于“not equal shape”的错误。而且,tf.decode\_csvtf.estimator.inputs.pandas\_input\_fn无法解析pandas元素为list的情况。所以,尝试失败。

    作业提交

    结合tensorflow tutorial自己整理的简易wide&deep代码,可执行,但不能保证效果。

    参考资料

    相关文章

      网友评论

          本文标题:tensorflow 摸索之wide&deep

          本文链接:https://www.haomeiwen.com/subject/vazppqtx.html