Initial embeddings in Encoder/Decoder

Ying_L 2025 年5 月 1 日 14:03 #1

老师们好，

我有几个关于大模型录播课部分的问题，想请教一下：

关于Encoder和Decoder模型中的initial embeddings，视频中说是一些random numbers, 这个是指training过程中初始化为random numbers吗？和post training的initial embeddings有什么区别么？
Decoder 模型里面涉及到的masked self-attention我没有听的很明白，decoder是怎么同时利用encoder计算出来的contextual embeddings 和 decoder之前的output结合，计算出新的output。请问有没有什么课外的资料可以参考。
直播课有关于录播课答疑的时间吗？

感谢解答！！