遗传算法原理简介

作者: 佩鸿PH | 来源:发表于2017-05-28 10:51 被阅读0次

遗传算法原理简介
遗传算法入门
遗传算法（二）—进化的罗比
遗传算法（二）—进化的罗比 - 草稿
遗传算法综述
遗传算法优化BP神经网络
本人在Unity3D中开发的遗传算法插件的介绍
优化算法笔记（六）遗传算法
遗传算法简介
遗传算法简介

遗传算法（Genetic Algorithm, GA）是一种进化计算（Evolutionary Computing）算法，属于人工智能技术的一部分。遗传算法最早是由John Holland和他的学生发明并改进的，源于对达芬奇物种进化理论的模仿。在物种进化过程中，为了适应环境，好的基因得到保留，不好的基因被淘汰，这样经过很多代基因的变化，物种的基因就是当前自然环境下适应度最好的基因。该算法被广泛应用于优化和搜索中，用于寻求最优解（或最优解的近似），其最主要的步骤包括交叉（crossover）和突变（mutation）。

所有的生物体都由细胞组成，每个细胞中都包含了同样的染色体（chromosome）。染色体由一串DNA组成，我们可以简单地把一个生物个体表示为一条染色体。每条染色体上都包含着基因，而基因又是由多个DNA组成的。每个基因都控制着个体某个性状的表达，例如眼睛的颜色、眼皮的单双等。在物种繁衍的过程中，首先发生交叉，来自于父母的染色体经过分裂和重组，形成后代的染色体。之后，后代有一定概率发生基因突变，即染色体上某个位置处的基因以一定概率发生变化。之后，对每一代都重复进行交叉和突变两个步骤。对于每一个后代，我们可以通过一定的方式测量其适应度。适应度越好的个体，在下一次交叉中被选中的概率越大，它的基因越容易传给下一代。这样，后代的适应度就会越来越好，直到收敛到一个稳定值。

在优化问题中，可行解总是有很多个，我们希望寻找一个最优解，它相对于其他可行解来说具有更好的适应度（即目标函数值更大或更小）。每个可行解就是一个“生物个体”，可以表示为状态空间中的一个点和适应度。每个解都是一个经过编码的序列，已二进制编码为例，每个解都是一个二进制序列。这样每个染色体就是一个二进制序列。遗传算法从从一组可行解开始，称为population，从population中随机选择染色体进行交叉产生下一代。这一做法的基于下一代的适应度会好于上一代。遗传算法的过程如下：

初始化，随机生成n个染色体；
根据目标函数，计算每个染色体的函数值，即适应度；
产生下一代：
- 随机选择两个染色体，且适应度越好的染色体被选中的概率越大；
- 按照一定的交叉概率使两个染色体发生交叉，产生两个新后代；如果没有发生交叉，则后代即为这两个染色体本身；
- 按照一定的突变概率使后代发生基因突变；
- 把后代放入新的population中；
使用新的population，重复步骤2和3，直到达到终止条件。

终止条件可以是达到了最大迭代次数，或者是前后连续几代的最优染色体的适应度差值小于一个阈值。以上算法描述也许还不够直观，我们举例说明。假设解可以用二进制编码表示，则每个染色体都是一个二进制序列。假设序列长度为16，则每个染色体都是一个16位的二进制序列：

染色体

首先，我们随机生成一个population，假设population size为20，则有20个长度为16的二进制序列。计算每个染色体的适应度，然后选取两个染色体进行交叉，如下图所示。下图在第6为上将染色体断开再重组，断开的位置是可以随机选择的。当然，断裂位置也可以不止一个。可以根据具体问题选择具体的交叉方式来提升算法性能。

交叉

之后，随机选取后代染色体上某个基因发生基因突变，突变的位置是随机选取的。并且，基因突变并不是在每个后代上都会发生，只是有一定的概率。对于二进制编码，基因突变的方式是按位取反：

基因突变

上述例子是关于二进制编码的，像求解一元函数在某个区间内的最大最小值就可以使用二进制编码。例如，求解函数f(x)=x+sin(3x)+cos(3x)在区间[0,6]内的最小值。假设我们需要最小值点x保留4位小数，那么求解区间被离散成60000个数。因为2^{15}<60000<2{16}，所以，需要16位二进制数来表示这60000个可能的解。其中0x0000表示0，0x0001表示0.0001，以此类推。针对这个例子，文末给出了demo code．

然而，在排序问题中无法使用二进制编码，应该采用排列编码（permutation encoding）。例如有下面两个染色体：