KL散度
概率分布
概率分布指的是变量X取值及其对应的概率
其包含所有取值和对应的概率
概率函数指的是用函数的形式来表示概率
概率分布函数
即概率分布函数是累积概率函数
分布参数
KL散度
KL散度又被称为相对熵
是一种衡量两个分布之间匹配程度的方法
其计算的是给定分布偏离真实分布的程度
在深度学习中通常用来评估模型输出的预测值分布与真值分布之间的差异
在公式中,我们用
即概率越高的匹配区域的偏离系数更加重要
KL散度并不像范数一样是对称的,也就是其不是真正的度量值
即
除去不对称性,KL散度还有一个重要的性质是非负性
最大似然估计(MLE)
最大似然估计希望从样本数据中估计总体参数
假设我们有一个概率分布D
我们从分布D中抽取n个参数
利用n个采样数据来估计分布参数
即最大化
那么我们可以得到求解式
注意到乘法在实际处理中容易导致溢出,因此我们做取log处理
式子中的
交叉熵
熵的概念起源于物理学,用于度量热力学系统的无序程度
信息学中的熵则类似,是用于度量信息的不确定程度
信息的作用是消除不确定性
熵越高,能传递的信息越多,不确定性越高
确定的事件没有信息,随机事件包含最多的信息
熵的计算式子为
交叉熵指用分布Q的参数对分布为P的信息x编码需要的最少比特数
我们发现交叉熵跟KL散度以及最大似然估计十分相似
所以最小化交叉熵,最小化KL散度和最大似然估计过程从参数更新的角度上看意义是相同的
因为KL散度和熵均非负,因此交叉熵也具有非负性
JS散度
JS散度是KL散度的一种变形
因其是对称的,因此JS散度又可以称为JS距离,相比于KL散度,其对相似度的判断更为准确
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 未央の童话镇!
评论
TwikooValine