Deep Learning (4) - Hyperparameters

Posted on 2018-08-30 Edited on 2018-08-31

~~Edit~~

在机器学习的模型中，通常有一些超参数(Hyperparameter)，例如：学习率()，神经网络层数等等。这些是模型的参数。相对超参数，我们要通过学习调优的模型参数，例如：W，b等等，称为learnable parameter。超参数通常影响Gradient decent迭代的收敛速度和质量，甚至是否收敛。所以通常需要不断的调整，找到适合模型的超参数。

Tuning Process

在引入各种优化算法(Momentum，RMSprop，ADAM)之后，超参数的种类变得更多起来：

Learning rate:
Momentum:
ADAM:
Number of layers
Number of hidden units
Learning rate decay算法
mini-batch size

在调试这些参数的时候，Andrew给出了优先级：

解释一下，这么多超参数中：
Learning rate是最重要的，首先要调整的，选择合适的learning rate，否则算法有发散的可能
第二优先级的是橙色的框框，包括：Momentum , Number of hidden units, mini-batch size
之后是紫色的框框，包括：Number of layers, 选择Learning rate decay的算法
ADAM的参数通常不需要调整，经典值往往就有不错的效果，