【机器学习】人工神经网络ANN

发表: 2018-03-12 浏览: 1996

Python 人工智能机器学习

作者：水奈樾 人工智能爱好者
博客专栏：http://www.cnblogs.com/rucwxb/

往期阅读：
【机器学习】DNN训练中的问题与方法
【机器学习】TensorFlow学习（一）

神经网络是从生物领域自然的鬼斧神工中学习智慧的一种应用。人工神经网络（ANN）的发展经历的了几次高潮低谷，如今，随着数据爆发、硬件计算能力暴增、深度学习算法的优化，我们迎来了又一次的ANN雄起时代，以深度学习为首的人工神经网络，又一次走入人们的视野。

感知机模型perceptron

不再处理离散情况，而是连续的数值，学习时权值在变化，从而记忆存储学到的知识

神经元输入：类似于线性回归z =w1x1+w2x2 +⋯ +wnxn= wT・x（linear threshold unit (LTU)）

神经元输出：激活函数，类似于二值分类，模拟了生物学中神经元只有激发和抑制两种状态。

增加偏值，输出层哪个节点权重大，输出哪一个。

采用Hebb准则，下一个权重调整方法参考当前权重和训练效果

#一个感知机的例子
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()
X = iris.data[:, (2, 3)] # petal length, petal width
y = (iris.target == 0).astype(np.int) # Iris Setosa?
per_clf = Perceptron(random_state=42)
per_clf.fit(X, y)
y_pred = per_clf.predict([[2, 0.5]]

之后有人提出，perceptron无法处理异或问题，但是，使用多层感知机（MLP）可以处理这个问题

def heaviside(z):
return (z >= 0).astype(z.dtype)
def sigmoid(z):
return 1/(1+np.exp(-z))
#做了多层activation，手工配置权重
def mlp_xor(x1, x2, activation=heaviside):
return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)

如图所示，两层MLP，包含输入层，隐层，输出层。所谓的深度神经网络，就是隐层数量多一些。

激活函数

以下是几个激活函数的例子，其微分如右图所示

step是最早提出的一种激活函数，但是它在除0外所有点的微分都是0，没有办法计算梯度

logit和双曲正切函数tanh梯度消失，数据量很大时，梯度无限趋近于0，

relu在层次很深时梯度也不为0，无限传导下去。

如何自动化学习计算权重(backpropagation)

首先正向做一个计算，根据当前输出做一个error计算，作为指导信号反向调整前一层输出权重使其落入一个合理区间，反复这样调整到第一层，每轮调整都有一个学习率，调整结束后，网络越来越合理。

step函数换成逻辑回归函数σ(z) = 1 / (1 + exp(–z))，无论x落在哪个区域，最后都有一个非0的梯度可以使用，落在（0,1）区间。

双曲正切函数The hyperbolic tangent function tanh (z) = 2σ(2z) – 1，在（-1,1）的区间。

The ReLU function ReLU (z) = max (0, z)，层次很深时不会越传递越小。

多分类时，使用softmax（logistics激活函数）最为常见。

使用MLP多分类输出层为softmax，隐层倾向于使用ReLU，因为向前传递时不会有数值越来越小得不到训练的情况产生。

以mnist数据集为例

import tensorflow as tf

# construction phase
n_inputs = 28*28 # MNIST
# 隐藏层节点数目
n_hidden1 = 300
n_hidden2 = 100
n_outputs = 10

X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")
y = tf.placeholder(tf.int64, shape=(None), name="y")
def neuron_layer(X, n_neurons, name, activation=None):
with tf.name_scope(name):
n_inputs = int(X.get_shape()[1])
# 标准差初始设定，研究证明设为以下结果训练更快
stddev = 2 / np.sqrt(n_inputs)
# 使用截断的正态分布，过滤掉极端的数据，做了一个初始权重矩阵，是input和neurons的全连接矩阵
init = tf.truncated_normal((n_inputs, n_neurons), stddev=stddev)
W = tf.Variable(init, name="weights")
# biases项初始化为0
b = tf.Variable(tf.zeros([n_neurons]), name="biases")
# 该层输出
z = tf.matmul(X, W) + b
# 根据activation选择激活函数
if activation=="relu":
return tf.nn.relu(z)
else:
return z

with tf.name_scope("dnn"):
# 算上输入层一共4层的dnn结构
hidden1 = neuron_layer(X, n_hidden1, "hidden1", activation="relu")
hidden2 = neuron_layer(hidden1, n_hidden2, "hidden2", activation="relu")
# 直接输出最后结果值
logits = neuron_layer(hidden2, n_outputs, "outputs")

# 使用TensorFlow自带函数实现，最新修改成dense函数
from tensorflow.contrib.layers import fully_connected
with tf.name_scope("dnn"):
hidden1 = fully_connected(X, n_hidden1, scope="hidden1")
hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2")
logits = fully_connected(hidden2, n_outputs, scope="outputs", activation_fn=None)

# 使用logits（网络输出）计算交叉熵，取均值为误差
with tf.name_scope("loss"):
xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
loss = tf.reduce_mean(xentropy, name="loss")

learning_rate = 0.01
with tf.name_scope("train"):
optimizer = tf.train.GradientDescentOptimizer(learning_rate)
training_op = optimizer.minimize(loss)

with tf.name_scope("eval"):
correct = tf.nn.in_top_k(logits, y, 1)
accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))

init = tf.global_variables_initializer()
saver = tf.train.Saver()

# Execution Phase
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("/tmp/data/")
# 外层大循环跑400次，每个循环中小循环数据量50
n_epochs = 400
batch_size = 50
with tf.Session() as sess:
init.run()
for epoch in range(n_epochs):
for iteration in range(mnist.train.num_examples // batch_size):
X_batch, y_batch = mnist.train.next_batch(batch_size)
sess.run(training_op, feed_dict={X: X_batch, y: y_batch})
acc_train = accuracy.eval(feed_dict={X: X_batch, y: y_batch})
acc_test = accuracy.eval(feed_dict={X: mnist.test.images,y: mnist.test.labels})
print(epoch, "Train accuracy:", acc_train, "Test accuracy:", acc_test)

# 下次再跑模型时不用再次训练了
save_path = saver.save(sess, "./my_model_final.ckpt")

# 下次调用
with tf.Session() as sess:
saver.restore(sess, "./my_model_final.ckpt") # or better, use save_path
X_new_scaled = mnist.test.images[:20]
Z = logits.eval(feed_dict={X: X_new_scaled})
y_pred = np.argmax(Z, axis=1)

超参数设置

隐层数量：一般来说单个隐层即可，对于复杂问题，由于深层模型可以实现浅层的指数级别的效果，且每层节点数不多，加至overfit就不要再加了。

每层神经元数量：以漏斗形逐层递减，输入层最多，逐渐features更少代表性更强。

激活函数选择（activation function）：隐层多选择ReLU，输出层多选择softmax

公众号后台回复关键词学习
回复 人工智能    揭开人工智能的神秘面纱
回复 贝叶斯算法 贝叶斯算法与新闻分类
回复 机器学习 R&Python机器学习
回复 阿里数据   阿里数据系列课程
回复 Python Python机器学习案例实战
回复 Spark   征服Spark第一季
回复 kaggle   机器学习kaggle案例
回复 大数据     大数据系列视频
回复 数据分析 数据分析人员的转型
回复 数据挖掘   数据挖掘与人工智能
回复 机器学习 R&Python机器学习
回复 阿里数据   阿里数据系列课程
回复 R R&Python机器学习入门

0 个评论

要回复文章请先登录或注册