Cross entropy loss的推導

我們說cross entropy可以用來衡量兩個概率分布(p和q)的差異,下圖推導的式子中

  • p(y)是y_true|x的概率,服從Bernoulli distribution: p(y) = p ^ y * (1 - p) ^ (1 - y)
    所以, p(y = 1) = p, p(y = 0) = 1 - p
  • q(y)是y_predict的概率,q(y = 1) = logistic function = h(x), q(y = 0) = 1 - h(x)

不理解從第二個等號到第三個等號,為什麼p(y = 1)是y,而不是p? 另外,我們想看Bernulli distribution和logistic function這兩個概率之間的差異,而y是y_true,y_true是value不是概率

“y是y_true,y_true是value不是概率” 这个理解完全正确,这也是在公式中我们用y而不用p的原因。在CEH公式中,我们是关于每一个observation data point累加两个分布之间的差异。对于每一个观测到的数据点,y=1与否是确定的事件,即发生的概率非0即1。因此在这里带入这个数据点的y值是最简单的计算方法。对于observation data distribution, 它确实是服从参数为P_p的bernoulli分布的, 你当然可以计算P_p这个期望值,然后对每一个数据点都带入这个P_p. 但这样做的计算结果,在理论上应该与带入y值是一样的,甚至可能不如带入y值的计算结果准确,因为毕竟P_p的计算不一定准确。