老师们好,
我有几个关于大模型录播课部分的问题,想请教一下:
-
关于Encoder和Decoder模型中的initial embeddings,视频中说是一些random numbers, 这个是指training过程中初始化为random numbers吗?和post training的initial embeddings有什么区别么?
-
Decoder 模型里面涉及到的masked self-attention我没有听的很明白,decoder是怎么同时利用encoder计算出来的contextual embeddings 和 decoder之前的output结合,计算出新的output。请问有没有什么课外的资料可以参考。
-
直播课有关于录播课答疑的时间吗?
感谢解答!!