1.神经网络NN复杂度:多用NN层数和NN参数的个数表示
2.层数 = 隐藏层的层数+1个输出层
3.总参数 = 总W+总b
NN优化目标:loss最小(loss可以是MSE,可以是自定义函数,可以是ce(Cross Entropy))
import tensorflow as tf
import numpy as np
BATCH_SIZE = 8 #一次喂入神经网络多少组数据,不能一次喂很多
seed = 23455
rdm = np.random.RandomState(seed)
#随机数返回32行2列的矩阵,表示32组,体积和重量作为输入数据集
X = rdm.rand(32,2)
Y_ = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1,x2) in X] #rdm.rand()生成[0,1)前闭后开的0到1的随机数,除以10,变成[0,0.1)之间的随机数,减0.05变成[-0.05,0.05]
#定义损失函数及反向传播方法
#定义损失函数为MSE,反向传播方法为梯度下降
loss_mse = tf.reduce_mean(tf.square(y_-y))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss_mse) #梯度下降,学习率0.001
#生成会话,训练steps轮
with tf.Session() as sess:
init_op = tf.global_variables_initializer()
sess.run(init_op)
#训练模型
steps = 20000
for i in range(steps):
start = (i * BATCH_SIZE) % 32
end = start + BATCH_SIZE
sess.run(train_step, feed_dict = {x:X[start:end], y_:Y_[start:end]})
if i % 500 == 0: #每500轮打印一次
print("After %d training steps, w1 is :"% (i))
print(sess.run(w1),":\n")
print("Final w1 is :\n",sess.run(w1))
权重都接近于1.
自定义损失函数
如预测商品销量,预测多了,损失成本;预测少了,损失利润。
若利润成本,则mse产生的loss无法使得利益最大化。
自定义损失函数: (是标准答案,y是预测答案
#利润为9,成本为1,希望预测多了
BATCH_SIZE = 8 #一次喂入神经网络多少组数据,不能一次喂很多
seed = 23455
cost = 1
rdm = np.random.RandomState(seed)
#随机数返回32行2列的矩阵,表示32组,体积和重量作为输入数据集
X = rdm.rand(32,2)
Y_ = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1,x2) in X] #rdm.rand()生成[0,1)前闭后开的0到1的随机数,除以10,变成[0,0.1)之间的随机数,减0.05变成[-0.05,0.05]
#定义神经网络的输入、参数和输出,定义前向传播过程
x = tf.placeholder(tf.float32, shape=(None,2))
y_ = tf.placeholder(tf.float32, shape=(None,1)) #正确答案
w1 = tf.Variable(tf.random_normal([2,1], stddev=1, seed=1)) #隐藏层是3个神经元
y = tf.matmul(x,w1)
loss = tf.reduce_sum(tf.where(tf.greater(y,y_),(y-y_)*cost,(y_-y)*profit))
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss) #梯度下降,学习率0.001
with tf.Session() as sess:
init_op = tf.global_variables_initializer()
sess.run(init_op)
#训练模型
steps = 20000
for i in range(steps):
start = (i * BATCH_SIZE) % 32
end = start + BATCH_SIZE
sess.run(train_step, feed_dict = {x:X[start:end], y_:Y_[start:end]})
if i % 500 == 0: #每500轮打印一次
print("After %d training steps, w1 is :"% (i))
print(sess.run(w1),":\n")
print("Final w1 is :\n",sess.run(w1))
此时的权重都大于1,因为利润为9,成本为1,预测多了更好。
如果将利润改成1,成本改成9,那么预测少了好,此时的权重都会小于1.
交叉熵ce(cross entropy):表征两个概率分布之间的距离,越大,两个概率分布越远
,表示正确答案,y表示预测答案
ce = -tf.reduce_mean(y_*tf.log(tf.clip_by_value(y,1e-12,1.0))) #y<1e-12为1e-12防止0的出现,y>1.0为1.0,使得输出的数在0,1之间都是概率值
当n分类的n个输出(y1,y2,...yn)通过softmax()函数,便满足了概率分布要求:
ce=tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1))
cem = tf.reduce_mean(ce)
网友评论