[Logistic Regression] 数学符号含义明确

老师,想明确一下这里的x,y,p,P各自在实际应用中的含义。
image

两个p,P放在一起极其容易混淆,怎么区分?

y=Θx吗?算是把Θx和logistic function复合起来了吗?为什么复合了以后还要再和bernoulli复合?

还有这里的下角标j是什么意思?
image

  1. P(Y|x)表示的是随机变量的概率,它是由p的表达式决定的,即y取不同的值的时候,这个P(Y|x)是不同的关于p的表达式。可以认为他们两者都有概率的含义。
  2. Y在这里是离散型随机变量,它无法与连续型随机变量x建立关系,首先需要用bernoulli distribution把Y对应成p, p已经是连续型的值了,它再与X去构建关系,此时用到了logistic regression.
  3. j表示的是第j个feature. 如果有ax1+bx2, 那么表示有2个feature.

谢谢老师,这里有3个follow up:

  1. 黄色高亮的地方好像并不对应,这个要怎么理解?

  1. 右侧是Θ_j,左侧是全部的Θ,这个在程序里直接写总的就可以吗?如果直接写总的,是不是也没必要把b拆出来?讲课的时候为什么不是直接对Θ进行梯度计算,而是对Θ_j进行梯度计算?这里有点混淆。
  2. sigmoid一定是线性的Θx的形式吗?会不会有可能包含多个特征相乘的情况?这个怎么判断?
  1. 这里是对应的. np.dot表示的是内积. 程序的意思是, (A-Y)的转置,与X做内积。A就是h(x), 因此就是(h(x)-Y)*X
  2. 在程序中, 我们是通过向量的表示方法把所有的 Θ_j 一起计算出来了。在程序中,W表示的是一个由很多个W_j组成的列向量。因此程序和代码是对应的。本质上还是逐一地对每一个参数W_j做运算。
  3. sigmoid只是表示logic function的外层运算,你可以再看一下sigmoid()这个函数在课程代码中的实现做法。你说的多个特征相乘的情况,在代码中应该体现在对Z的表示中,我们的代码中,Z是W与X的内积,不包括特征相乘的情况, 你如果想加上那些的话,可以改写Z的表达式,是完全可行的,只不过,你如果这样做的话,后续的梯度公式都需要改写。