Big Ben

Deep Learning (13) - Face Recognition

Posted on 2018-09-29 Edited on 2018-09-30

~~Edit~~

本章讨论的是目标检测的一个特殊用例——人脸识别。所谓人脸识别，就是输入一张照片，或者现场采集头像照片，并匹配数据库中的数据，来翻译成身份信息。通常一个人脸识别算法可以分作两步：

Face verification
Face recognition

前者输入照片和ID信息，判断是否匹配。后者输入照片信息，与数据库中已有的照片集进行匹配。当前者算法精确度足够高时，就可以应用到后者中。

One Shot Learning

Face recognition首要解决的就是One Shot Learning问题。例如公司的门禁系统，通常每个员工只上传一张个人照片，那么这个系统就要能够正确识别该员工。即便所有的员工都上传了照片，其实这个样本集的数量级仍然不会很高。怎么在一个小样本集上有效训练来达到比较好的效果，这就是One Shot Learning需要解决的问题。后面提到的Siamese网络就是One Shot Learning的一种解决方案。

Siamese Network

Siamese就是下图这样的一个网络。它包含2个或者更多个完全一样的网络分支。每个分支将输入数据映射成最终的activation向量输出。然后通过比较这两个向量的相似度，来度量两幅图片的相似度。

其中两路输出的difference用下式来表明：

如果输出层，采用sigmoid激活函数，则预测输出为：

上面是训练好所有权重后，如何使用一个Siamese网络来得到图片异同的预测。那么如何训练一个Siamese网络呢？要训练一个网络，首先我们需要模型的损失函数J，其次我们需要满足训练的样本集。

Triplet Loss

要训练一个Siamese网络，它的输入样本可以这样选择

一共3张图片，分成两组，训练的目标是左边一组输出的difference函数要小于右边一组输出的difference函数。考虑随机噪声，再添加一些margin，可以得到损失函数如下：

就是margin
A代表Anchor，P代表Positive，N代表Negative
m是mini-batch中的样本数

如果有1k个人的10k张图片，可以生成很多个这样APN的样本组。生成时，最好不要采用随机算法，因为如果是随机生成APN的话，导致AN很有可能图片本身差别就很大，所以就很容易满足，这样的样本就是无效样本。在生成样本时，尤其是挑选AN对时，尽量挑选比较相似的，以进行有效训练。
通过对该损失函数J进行前向传播和反向传播，来运行Gradient descent算法，迭代得到最终Siamese网络的模型参数。

参考文献

Siamese Network: Taigman et. al., 2014, DeepFace closing the gap to human level performance.
Triplet Loss: Schroff et. al., 2015, FaceNet: A unified embedding for face recognition and clustering.
Siamese Network & Triplet Loss

Deep Learning (12) - Object Detection

Posted on 2018-09-24 Edited on 2018-09-27

~~Edit~~

这一章主要介绍了当下大行其道的Computer Vision中的Object Detection，也就是目标检测。课程由浅入深，其间也深入介绍了目标检测算法的集大成者YOLO算法。

模型定义

输入是一张图片，经过CNN网络，输出预测标签。标签定义通常是：

Pc: 是否有需要检测的目标
: 代表bounding box
: 代表三种分类，例如：car, pedestrian, motorcycle

损失函数(用最小二乘法)：

检测方法

滑动窗口检测法

检测方法就是如图所示，先用最小的窗口截取图片的每个角落，跑一遍CNN，看看有没有命中的格子，如果没有，就换大一点的窗口，如果还没有就再换大一点的窗口，以此类推。这是最容易想到的方法，但是缺点就是计算量太大，效率极低。

滑动窗口的卷积实现

其本质还是利用窗口来采样图片，并输出该窗口中是否有检测对象。但滑动窗口类似串行算法，卷积实现类似于并行算法，其共享了很多计算步骤，效率更高。
下面将会对滑动窗口算法网络进行一步步的改造，最终实现卷积算法来一次性检测所有窗口的结果。

1. 使用1x1 convolution (Network in network)来取代FC层

假设就是14x14的窗口使用在14x14的图片上，最终运算出来的结果是一个1x1x4的volume，代表4个分类上的结果。

2. 增加图像尺寸后的情况

图像尺寸在长宽方向上都增加2个pixel，则图像尺寸是16x16。如果仍然采用14x14的窗口，则会需要4个窗口来检测这个16x16的图像。经过上述CNN网络迭代后，结果是4x4x4。其每一个格子代表了一个窗口的运算结果。这实际上就是滑动窗口的卷积实现了。

更大一点的图像会是怎么样的情况呢？

同理，如果是28x28的图像，则会有8个窗口来检测，最终产生的volume是8x8x4，代表这8个窗口的检测结果。
卷积算法通过一次性迭代，输出了一幅图片上所有分片的检测结果，其效率要远远大于滑动窗口的运算效率。

YOLO Algorithm

YOLO = You Only Look Once
这是公认比较高效的目标检测算法。据说这篇论文的难度也很高，比较难读懂。

IOU

IOU = Intersection Over Union，翻译成交并比。交集和并集的比例。如下图：

蓝色框是算法预测出的目标位置，红色框是实际目标位置。黄色阴影是交集，绿色阴影是并集。那么：

以IOU的大小来判断，这一次目标检测的质量。例如，我们通常要求交并比达到0.5或0.6以上，才算一次有效的检测。

Non-max Suppression Algorithm

翻译成非极大值抑制。
当有如下的检测结果的时候：

理论上，一个物体只属于一个box。但是，通常在预测的时候，每一个物体四周的box都有可能产生有效预测。Non-max suppression要做的就是过滤掉质量较差的预测，为每个物体只留下一个有效预测。具体做法如下

经过Non-max suppression过滤后，最终结果如下：

每个物体只保留一个有效检测。

Anchor Box

Anchor Box要解决的问题就是像下面这幅图，有两个不同形状的物体，其中心点重叠。也就是一个grid box中有两个物体，这个通过一般的y label是没法反映出来的。

通常的y label是：

解决办法就是设置Anchor Box，这样的图片就设置两个Anchor Box。当如果有更多的图片交叠的可能的时候，那就要设置多个Anchor Box。y修正成为：

y上半部分检测Anchor Box 1的物体，下半部分检测Anchor Box 2的物体。

YOLO算法

先将样本图片切割成网格，针对每个网格填充标签y。

每个网格的左上点坐标为(0,0)，右下角坐标为(1,1)。所以，是真实物体尺寸针对网格的比例。所以上图右边车子的bounding box的长宽可能是0.4x0.9，左边车子的长宽比可能是0.5x0.6。
如果有目标物体则，否则
如果有可能有图片重叠在一个格子的时候，需要设置对应的Anchor Box

后面就是经典的CNN了，最终得出对y的预测

最终输出的图像，可能是如下：

采用non-max suppression来过滤出最终的预测结果。

参考文献

YOLO: Redmon et al., 2015, You Only Look Once: Unified real-time object detection

Deep Learning (11) - Deep convolutional models

Posted on 2018-09-20 Edited on 2018-09-28

~~Edit~~

终于讲到真正的deep learning了，本章主要介绍了几个经典的深度卷积网络。包括：

Classic Networks:
- LeNet-5
- AlexNet
- VGG
ResNet
Inception

经典网络都是比较早期的运用卷积层搭建的神经网络，在当时取得了不错的效果，也推动了深度学习社区的进一步发展。这些网络的构成也可以帮助我们学习如何搭建深度卷积网络。ResNet和Inception就是最近几年的研究成果了。由于现在深度学习理论和计算机算力的进一步发展，这些网络的结构已经远比经典网络要复杂的多。我们可以通过学习了解，并在真正的生产环境中去尝试使用这些已有的网络。
所有的网络都有对应的论文介绍，我将其列入参考文献一节。

经典网络

这些经典网络基本都基于经典的卷积网络(LeNet)，只是网络的尺寸越来越大，参数越来越多

LeNet-5

上一章讲卷积网络时就以这个网络为例子的。其基本构成如下图：

两个卷积层，每一个卷积层后有一个average pooling层
最后两个神经网络层直接输出
在输出前可以用Softmax层来做多分类
该网络大约有60K个参数

因为是早期网络，所以并不是很深，卷积层没有使用padding，所以图像尺寸越来越小，采用average pooling，这在后期的网络不太常见。
不过不管怎么样，这都是一个很经典的卷积神经网络。

AlexNet

其网络结构如下图：

网络构成基本与LeNet差不多。与LeNet不同的是，这里采用了max pooling，采用了更多的神经网络连接，添加了Softmax输出层，一定程度上使用了padding。参数的数量大约在60M，是LeNet的1000倍。

产生这篇论文时，GPU技术还不是很发达，论文花了很多篇幅讲述如何将改网络拆分到不同的GPU上进行计算。但这个对现在的GPU技术来说已经不重要了。
文中还提到了一个概念叫Local Response Normalization，这也是不常用的概念，不需要理解。

VGG - 16

网络结构如下图：

网络结构变的更复杂了，参数数量达到了138M

ResNet

中文译作残差网络，因为其特点是在经典网络的基础上加入很多如下图的residual block：

<——- 这里的就是残差

整个网络结构大致如下：

这样一个网络就由5个残差模块组成。
残差模块的引入是为了改善，当经典网络(或者这篇论文中提到的plain network，即没有残差模块的网络)深度很大时的vulnerability，即梯度爆炸和梯度消失带来的问题。

理论上机器学习的网络规模越大，深度越大的时候，精度应该越来越高。但因为初始值取值的问题，或其他任何随机误差的引入，都有可能在网络层数过多时会导致梯度消失或爆炸，从而导致实际效果达不到理论效果。
在引入残差网络解决梯度消失或爆炸后，往往能得到比较好的效果：

为什么残差网络有用？(注：这里我也不太理解，先记录下来)

对于这样一个大型神经网络后面接一个残差模块后，有：

如果有weight decay(L2 regularization)，，如果当的时候，，如果激活函数时ReLU，则，可见新增加的两层神经网络并不会影响整体网络的performance。所以得证，网络深度的累积对残差网络的影响较小。

Inception

Network in network (1x1 convolution)

这里是一个filter的图例。与其他的卷积网络不同的是，这里不仅是，而是，均是向量。如果filter有很多个，则相当于一个小型2层(1个隐藏层)的神经网络。这就是所谓的网络中的网络。
使用1x1 convolution或者network in network的好处是，可以缩减输入图像的通道数。从而达到减少运算量的效果。

运用Network in network来降低运算量

这样一次映射的运算量是28x28x192x5x5x32 = 120M

通过一个1x1convolution做过度的计算量是28x28x192x1x1x16 + 28x28x16x5x5x32 = 12.4M
缩小到接近1/10，相当可观了。而且因为network in network的引入，虽然通道数缩减了，但并不会影响最终模型的performance。
中间的1x1 convolution又称为该网络的bottle neck，很形象的比喻

Inception (GoogLeNet)

这就是一个完整的Inception网络，里面包含了很多如下的Inception Module：

带branch的Inception网络

每个分支都有一个Softmax输出层。这些分支也能输出预测值，这样确保网络的所有隐藏单元和中间层都参与了特征计算。按照Andrew的说法，这些分支可以起到regularization的作用，可以有效降低网络过拟合的可能性。

参考文献

LeNet-5: LeCun et al., 1998. Gradient-based learning applied to document recognition
AlexNet: Krizhevsky et al., 2012. ImageNet classification with deep convolutional nerual networks
VGG-16: Simonyan & Zisserman 2015. Very deep convolutional networks for large-scale image recognition
ResNet: He et al., 2015. Deep residual networks for image recognition
Network in network: Lin. et al., 2013. Network in network
Inception: Szegedy et al., 2014, Going Deeper with Convolutions

Deep Learning (10) - Convolutional Neural Network

Posted on 2018-09-17 Edited on 2018-09-18

~~Edit~~

终于到CNN了，卷积神经网络。顾名思义，加入了卷积层的神经网络就是一个CNN。

卷积的定义

卷积的数学定义在wiki page上可以找到。大致如下：

而机器学习中使用的卷积略有差别，如下

注：实际上机器学习里的convolution是cross-correlation

卷积参数

卷积核

上面做卷积的3x3的矩阵就是卷积核，又可以称作filter，滤波器，过滤器等等。指的都是同一个东西。
在图像处理中，卷积通常被用来做边缘检测。例如上图的3x3 filter可以检测竖边缘。也可以变成下面这样来检测横边缘：

: channel number
: 下一个layer输入的channel number，本层等于filter number
f是卷积核的大小，s是步长，后面会讲到

Padding

Padding要解决的问题就是，如果没有padding，则输出矩阵会越来越小，因为当时，总小于n。如果有了padding，则这个数字修正成。此时可以修订padding的大小来调整输出矩阵的大小。

Stride

Stride指步长，上面图中的例子步长采用的是1，步长也可以是任意其他值。当步长为s，padding为p时，输出矩阵的尺寸为：

卷积神经网络

一个完整的卷积神经网络通常包括3个部分：

Convolution (CONV)
Pooling (POOL)
Fully connected (FC)

其中的Fully connected就是经典的全连接神经网络。

卷积网络

下图就是一层卷积网络的大致形态

输入是6x6x3的矩阵
经过两路卷积核和non-linear activation得到4x4x2的输出
其中b是bias，activation采用ReLU

这样一层网络的参数有：

: filter size
: padding size
: stride
: number of filters in layer
Input:
Output:
Each filter has shape:
After activations: , with mini-batch:
Weights:
Bias:

如果一个64x64的数据输入，采用10个3x3的卷积核，需要多少个模型参数？
答案是：(3x3+1)*10 = 280个，与输入图像的尺寸无关。即用小尺寸样本数据训练出来的卷积模型，同样可以适用于大尺寸的图像。

Pooling

翻译做池化层。一般有两种池化策略：

Max pooling
Average pooling

前者使用的更多一些。
具体做法用两张图表示：
Max pooling

Average pooling

这里f=2表示，基于2x2的矩阵做池化，s=2表示每次偏移2获得下一个池化矩阵。f, s都是超参数。所以池化层没有learnable parameter，只有hyper parameter。

为什么要有池化层？网上有很多讨论，摘一段：

本质上，是在精简feature map数据量的同时，最大化保留空间信息和特征信息，的处理技巧；目的是，通过feature map进行压缩浓缩，给到后面hidden layer的input就小了，计算效率能提高；CNN的invariance的能力，本质是由convolution创造的；

我的理解，有几个原因(可能不一定对，请斧正)：

卷积滑动累加时，区域有重叠，所以数据是有冗余的，需要精简
池化可以减少位移带来的影响，如max pooling只取一小块区域的最大值，这样虽然有小小位移，输出数据对此并不敏感
可以降维，减少后续数据计算量，也可以减少过拟合的风险，但是增加了欠拟合的风险。

完整的卷积神经网络

一个完整的卷积神经网络大概长这样：

CONV-POOL-CONV-POOL-FC-FC-Softmax

每个卷积网络后跟一个池化层，共两个卷积网络两个池化层
卷积层后，输出串行化到一个列向量里，作为后续神经网络的输入
FC3和FC4是两个全连接的标准神经网络
最后是Softmax的输出层

这样一个网络所有的参数如下表：

Deep Learning (9) - Transfer learning, Multi-task learning, End-to-end learning

Posted on 2018-09-04

~~Edit~~

Transfer learning

中文译作迁移学习，指的是将task A的模型，不经过修改，替换输出层后，直接用作task B的模型使用，或者基于task A模型基础上继续训练称为task B的模型。
产生迁移学习的原因是样本数据的约束。举个例子，task A是cat detector，task B是通过X光照片判断骨龄。A的样本千千万万，数据集庞大，B的样本来自于医院的患者照片，数据集非常有限。但是他们的底层模块应该是相同的或类似的，都需要边缘检测，需要像素分析等等。考虑到底层需求的近似性，所以考虑可以共用网络模型，进而产生了迁移学习。

When transfer learning makes sense?
Task A and B have the same input X.
You have a lot more data for Task A than Task B.
Low level features from A could be helpful for learning B.

Multi-task learning

中文译作多任务学习，指的是在一次学习中完成多个任务。例如：一个图片里，同时识别多个目标。

标准的损失函数里是没有这一项的。
如果样本数据中一些标记不完整(如下问号项)，仍然可以使用上述公式，只是项只累积有标记的部分

When multi-task learning makes sense?
Traning on a set of tasks that could benefit from having shared low-level features.
Usually: Amount of data you have for each task is quite similar.
Can train a big enough neural network to do well on all the tasks.

End-to-end learning

中文译作端到端学习。何为端到端学习？看下面speech recognition的例子：

听起来端到端学习不是很靠谱。不过如果是简单的学习目标，肯定都还是采用端到端学习。下面看端到端学习的优缺点：

Pros and Cons
Pros
Let the data speak. 说到底还是相关的样本够不够。你的样本足不足够覆盖所要达到的预测复杂程度。
Less hand-designing of components needed. 不需要手动分割系统，设计pipe line。
Cons
May need large amount of data. 缺点自然是需要大量数据。
Excludes potentially useful hand-designed components. 再就是要自行分割系统，设计pipe line。

Deep Learning (8) - Error Analysis

Posted on 2018-09-03 Edited on 2018-09-04

~~Edit~~

这里我觉得应当翻作错误分析，而非误差分析。重点阐述两个问题：

数据集本身有错误怎么办
有些情况因为样本数据本身的局限，导致training set和dev/test set分布不同怎么办？是否出现data mismatch？如果出现了，怎么办？

错误分析方法

这里Andrew抛出一个方法论。就是在需要错误分析的时候，例如现在的模型结果不满意，或者你发现样本数据可能有问题，再或者后面提到的可能会有data mismatch的情况的时候，都可以采用下面提到的方法，来发掘问题或者错误可能存在的地方：

取大约100个样本
在这100个样本中，数出错误的样本数，并标记到表格里
推断正确的样本也要查看，有可能存在样本标记错误，而模型缺陷导致其负负得正，从而恰好得出正确的结果。这样的样本也要挑出来。

样本错误怎么办？

In training set

通常如果只是随机错误，因为机器学习本身很善于消除随机错误带来的影响，所以不必特别的去处理这些随机的样本错误。如果是系统错误(systematic)，例如将所有的白色小狗认作猫咪，那就需要去纠正了。通常这不太可能，如果发生了，而且数据量很大，只能说明我们使用了不可信的数据。

In dev/test set

dev/test set中如果发现了错误标记的数据，还是需要纠正出来的，因为dev/test set中的数据并不会用来迭代，而是用来判断模型之间的优劣。如果数据中有错误的存在，会影响评判，进而影响模型修改的方向。所以dev/test set中的数据错误是有害的，必要时还是需要纠正。判断是否有必要修正的方法仍然是采用前一节提到的错误分析方法，再加上一列Incorrectly labeled。如果此列数据显示因为错标数据导致的判断错误达到足够的百分比，我们就要花点时间来修正这些dev/test集中的样本数据了。
Some guide lines:

Apply same process to your dev and test sets to make sure they continue to come from the same distribution. 保证dev和test集样本分布相同，否则会出现矛盾的模型评估。
Consider examining examples your algorithm got right as well as ones it got wrong. 考虑负负得正的情况。
Train and dev/test data may now come from slightly different distribtuion. 因为训练集样本太多，而且对随机错误不敏感，所以通常不去调整训练集。如果调整了开发和测试集就可能引入data mismatch的情况。如果怀疑data mismatch发生了，就要用前面的方法来get some insight。

Build your first system quickly, then iterate.

训练集与开发/测试集分布不同

为什么会有这种情况

Andrew举了两个例子：cat detector和rear view mirror。很生动。摘取cat detector来作为笔记：

如何判断data mismatch

方法是从训练集中再分割出一个数据集叫：training-dev set (训练-开发集)

Human Level	4%
		avoidable bias
Training set error	7%
		variance
Training-dev set error	10%
		data mismatch
Dev error	12%
		degree of overfitting to dev set
Test error	12%

当dev error与training-dev error相差过大的时候，就可以认为发生了data mismatch问题。

Test error与dev error通常应该一致，如果相差过远，说明模型在开发集上也出现了overfitting。考虑要扩大开发集

出现data mismatch怎么办？

当发生data mismatch的时候：

Carry out manual error analysis to try to understand difference between training and dev/test sets
Make training data more similar; or collect more data similar to dev/test sets.

针对第二点，可以采用数据合成(data synthesis)，也就是以前提到过的data augment。数据合成是有效的。但是要小心的是，数据合成通常只能模拟真实世界的很小一部分，你的模型是有可能对这很小一部分over tune。所以要注意运用variance tactics来定位和解决此时的overfitting。

Deep Learning (7) - Machine Learning Strategy

Posted on 2018-09-02 Edited on 2018-09-03

~~Edit~~

所谓Machine Learning Strategy就是如何调整学习的策略，来达到更好的准确率。Andrew提到这一门课(Structuring Machine Learning Projects)的两周的内容，通常是一些机器学习项目的经验之谈，在学校的课程中通常不会有提及。

Orthogonalization

Orthogonalization，译作正交化，类似coding时候的解耦(decouple)。通过一些正交化的调整策略来修正相关条件下的模型准确率。一般有下面4中策略：

When a supervised learning system is design, these are the 4 assumptions that needs to be true and orthogonal.
Fit training set well in cost function
If it doesn’t fit well, the use of a bigger neural network or switching to a better optimization algorithm might help.
Fit development set well on cost function
If it doesn’t fit well, regularization or using bigger training set might help.
Fit test set well on cost function
If it doesn’t fit well, the use of a bigger development set might help
Performs well in real world
If it doesn’t perform well, the development test set is not set correctly or the cost function is not evaluating the right thing.

Andrew也提到之前提到的一种regularization的方法——early stopping，就不是一种正交化的调整策略。他同时想做好第1和第2点。

Setting up your goal

做一个机器学习的项目，通常是下面这个过程，Idea->Code->Experiment->Idea，不断的迭代得到最终优化的模型。

Single real number evaluation metric

如果针对一个测试有两个指数型指标，这就很难取舍。这会降低上面这个循环的效率，甚至最终的模型准确度。所以这里才会提出单一评价标准。例如下面的例子：

Precision: Of all the images we predicted y=1, what fraction of it have cats?
Recall: Of all the images that actually have cats, what fraction of it did we correctly identifying have cats?

这两个指标当然都是越大越好，那如何评定Classifier A和B？
之前的一篇博文Machine Learning (2) - Neural Network中关于skewed data的一节中，有提到F1-score。这里就是通过F1-score来整合precision和recall来得到一个统一的标准。
F1-score
这个算法又称为”Harmonic Mean”。

计算Precision和Recall的”均值“只是一个例子，通常我们要自己思考出如何能产生一个易于评估的单一指数标准。

Satisficing and Optimizing

这里指，检验试验结果的指标，通常可以分成两类，即Satisficing和Optimizing。
Satisficing类指标指的是只要达到一定的阈值，再优化也不太会影响试验结果的优劣。例如，运行时间达到100ms即可，80ms和90ms的运行时间差别，并不能带来什么改善。
Optimizing类指标指的就是一些数值类的指标，例如准确率，一点点改善都会影响试验结果的评判。
下面是一个具体的例子：

Train/dev/test distributions

在做机器学习项目时，通常需要对样本数据进行分割。而不是将所有的样本都用于训练。上一章提到要对试验结果进行评估，而这个评估就是在dev或者test set上进行的。所以有一个合适的dev/test set对模型的迭代以及项目的推进，有着至关重要的影响。

Training set: 迭代得到各个模型参数(W, b, , )
Development (dev) set: 在一轮循环中验证training结果的正确性，以便下一轮调整模型(包括超参数的调整，是否采用正则化，网络结构的调整等等)
Test set: 在所有循环结束后，来验证最终模型的正确性。

如何分割？

在样本数据不太多(数千数万的级别)的时候，一般如下分割：

Guide Line

同一分布

分割样本数据的时候必须保证training，dev，test set均来自于同一种分布。

反映最终应用场景

dev/test set必须反应最终模型的应用场景。
例如cat detector，训练，测试都是采用网络上清晰度很高的图片，但使用时发现用户上传的很多都是清晰度不高的照片，那识别率肯定是不能令人满意的。这就是dev/test set和最终应用不符。改进的办法就是，要么可以多采用一些真实的用户数据，或者采用data augmentation来人工添加噪声，让原本清晰的图片变成模糊的。总而言之，就是改进训练集和测试开发集再进行训练。

如果有特别不想要的指标怎么办？

比如cat detector会误将色情图片识别为猫咪，这个是不可接受的，不管模型精度有多高。解决方法就是修改metric：
Error:
if is non-porn, if is porn.

最终的优化方向

为什么以人类表现作为分水岭？

因为人类在自然感知(Natural Perception)方面已经很擅长了。而在模型未达到人类表现的时候，你可以通过各种工具来改善你的学习模型。但当模型达到或者超过人类表现的时候，这些工具就失效了。因为这些工具也是通过人类感知来制造的。

什么是Avoidable Bias？

通常用人类表现来近似贝叶斯最优误差。
If | human-level error - training error | | training error - development error |, focus on bias (avoidable bias) reduction technique
If | human-level error - training error | | training error - development error |, focus on variance reduction technique

超过人类表现后怎么办？

答案是，没办法或者没有好的办法。因为超过人类表现，所有的改善模型表现的工具可能都会失效。所以要想前进一步都很困难。Andrew在教程中也没有给出明确的方向应该怎么做。我们通常用人类表现来近似贝叶斯最佳误差。当模型表现已经超过一组人类的推断准确率的时候，就没办法再用原先的值来近似贝叶斯误差了。

总结

Deep Learning (6) - Softmax regression

Posted on 2018-08-31

~~Edit~~

这个在看这个教程之前就有所耳闻。据说现在的deep learning模型的最后一层都是softmax层，来做多分类(Multi-class Classification)。

Activation Function:

Deep Learning (5) - Batch Normalization

Posted on 2018-08-31

~~Edit~~

在机器学习建模时，通常会对输入参数X进行Normalize，即

Normalize的好处是可以加速收敛。看下图，当正规化后，Contour从椭圆变成圆，不管起始点落在圆的哪里，最后都可以收敛到中心最优点。而左图，可能有一些随机噪声，导致方向偏离，就会导致最终结果发散。所以需要很小心的选择learning rate。

Implement

Batch Norm要做的就是对神经网络的每一层的中间变量使用正规化：

参数，控制着Z的均值和方差，它们和W，b一样也是模型求解的参数(learnable parameter)。

为什么要有?
正规化成均值为0，方差为1时，当采用类似sigmoid的激活函数的时候，则激活函数输出，或者说该节点输出均集中在中心线性区域，则该节点退化成线性激活函数，所有的节点退化成线性节点，神经网络就退化成了logistic regression。为了保持非线性，为了保持随机性，要通过和来调整每个状态量的分布函数。

Batch Norm in Neural Network

for 1…num of Mini-batches
　　　compute forward path on
　　　　　　　In each hidden layer, use BN to repair with
　　　Use backprop to compute
　　　Update params
　　　　　　　
　　　　　　　
　　　　　　　
Work with momentum, RMSprop, Adam

这里注意省略了, 因为b是常量，与状态输入无关，所以在正规化的时候，会被计入状态量的期望值

Batch Norm at test time

在测试阶段，对test set本身不做Batch Norm，因为test set和training set的分布可能不同。但是在做正向传播求预测输出的时候，因为各个hidden unit的参数都是根据Batch Norm迭代出来的，所以折中的办法就是，采用exponential weighted average来记录training set的和，在测试阶段使用。具体步骤：

针对每个mini batch，每一层记录和
使用exponential weighted average across mini batches，更新,
结束training的时候，记录和使用在test set里

Deep Learning (4) - Hyperparameters

Posted on 2018-08-30 Edited on 2018-08-31

~~Edit~~

在机器学习的模型中，通常有一些超参数(Hyperparameter)，例如：学习率()，神经网络层数等等。这些是模型的参数。相对超参数，我们要通过学习调优的模型参数，例如：W，b等等，称为learnable parameter。超参数通常影响Gradient decent迭代的收敛速度和质量，甚至是否收敛。所以通常需要不断的调整，找到适合模型的超参数。

Tuning Process

在引入各种优化算法(Momentum，RMSprop，ADAM)之后，超参数的种类变得更多起来：

Learning rate:
Momentum:
ADAM:
Number of layers
Number of hidden units
Learning rate decay算法
mini-batch size

在调试这些参数的时候，Andrew给出了优先级：

解释一下，这么多超参数中：
Learning rate是最重要的，首先要调整的，选择合适的learning rate，否则算法有发散的可能
第二优先级的是橙色的框框，包括：Momentum , Number of hidden units, mini-batch size
之后是紫色的框框，包括：Number of layers, 选择Learning rate decay的算法
ADAM的参数通常不需要调整，经典值往往就有不错的效果，

Try random values, Don’t use grid search

Coarse to fine

粒度由粗到精，这个就是显而易见的策略了。下图也很好的说明了：

Using an appropriate scale to pick hyperparameter

这里意思是有些场合，超参数的调试范围希望是指数上均匀的。例如Momentum中的，当我们想调试0.9~0.999范围的时候，实际上是想调试1-，取，