Cross entropy loss的推導

techie.student2 · 2021 年12 月 2 日 08:05

我們說cross entropy可以用來衡量兩個概率分布(p和q)的差異，下圖推導的式子中

p(y)是y_true|x的概率，服從Bernoulli distribution: p(y) = p ^ y * (1 - p) ^ (1 - y)
所以, p(y = 1) = p, p(y = 0) = 1 - p
q(y)是y_predict的概率，q(y = 1) = logistic function = h(x), q(y = 0) = 1 - h(x)

不理解從第二個等號到第三個等號，為什麼p(y = 1)是y，而不是p? 另外，我們想看Bernulli distribution和logistic function這兩個概率之間的差異，而y是y_true，y_true是value不是概率

miao.wang · 2021 年12 月 2 日 08:45

“y是y_true，y_true是value不是概率” 这个理解完全正确，这也是在公式中我们用y而不用p的原因。在CEH公式中，我们是关于每一个observation data point累加两个分布之间的差异。对于每一个观测到的数据点，y=1与否是确定的事件，即发生的概率非0即1。因此在这里带入这个数据点的y值是最简单的计算方法。对于observation data distribution, 它确实是服从参数为P_p的bernoulli分布的，你当然可以计算P_p这个期望值，然后对每一个数据点都带入这个P_p. 但这样做的计算结果，在理论上应该与带入y值是一样的，甚至可能不如带入y值的计算结果准确，因为毕竟P_p的计算不一定准确。