1. 理解
1.1 MNIST的每一张image图都对应一个label标签数字,从0到9。而softmax模型就是得到给定image图片代表每个数字的概率。
1.2 举例:假设一个label标签数字9对应的image图片通过softmax模型计算出该图片代表数字9的概率是80%,代表数字8的概率是5%(因为8和9都有上半部分的小圆),然后给予代表其他数字的概率更小的值。
1.3 softmax原理:下面的图片显示一个模型学习到的图片上每个像素对于特定数字标签的权值。红色代表负数权值,蓝色代表正数权值。
为了获取某张图片对应特定数字的依据,我们对该图片像素进行加权求和。例如MNIST的一张图片有28*28=784个像素,如果其中某个像素具有很强的依据说明这张图不属于该图对应的特定数字,那么该像素的权值为负数(图中红色),相反如果该像素有很强的依据说明这张图属于对应特定数字,那么该像素的权值为正数(蓝色)。
1.4 对于给定的输入图片x所代表的数字i 的“依据”的公式:
公式说明: 为标签特定数字 i 对应的图片的"依据"。
为标签特定数字 i 对应的图片中所有像素的权值之和。
为代表数字i的额外的偏置量(bias),用来消除因为输入时带入的无关的干扰量的影响。
1.5 用softmax函数可以把"依据”转换成概率y的公式:
公式说明: softmax函数可以看成是一个链接(link)函数,把我们定义的线性函数的输出"依据"转换成我们想要的格式,也就是关于10个数字的概率分布。
即给定一张图片,它对于每一个数字的吻合度可以被softmax函数转换成一个概率值。
1.6 softmax函数对于图片x可以定义为:(是对于每一个数字吻合度的概率分布)
1.7 softmax回归模型也可以使用下面的图来解释:
如果把它写成一个等式,可以得到:
我们也可以用向量表示这个计算过程:用矩阵乘法和向量相加。
更进一步,可以写成如下公式: